1、.基于粗糙集理论的中国上市公司失败的预测研究龚志勇 1,李定安 1(1.华南理工大学经济与贸易学院,广州 510006)【摘要】本文应用粗糙集理论,以沪、深股市 2005 年的上市公司为样本,利用沪、深两市上市公司的财务报表数据,研究在我国目前的经济环境、会计环境下,失败的上市公司在财务报表上共同的、区别于非失败公司的本质特征,通过几个关键的属性变量将非失败公司与失败公司区分开来,并对我国上市公司失败做出了预测。关键词 粗糙集理论 财务指标 公司失败 预测中图分类号 F830 文献标识码 ABased on Rough Set Theory Predict Research Listed Co
2、rporate Failure in ChinaAbstract:This paper apply the rough set theory, takes Shanghai and Shenzhen stock market, listed company in 2005 as sample book, makes use of two cities of Shanghai-Shenzhen, listed company financial statement data, studies in our country at present a listed company failing d
3、ifferentiates intrinsic characteristics, failure company commonly on financial statement, area separates by the fact that several the key attribute variables will be not the company who fails and the company who fails under the economy environment, the accountant environment, a listed company fails
4、to our country to have made a forecast.Key words:Rough Set Theory; Financial Index; Corporate Failure;Predict作者简介:龚志勇(1978-) ,男,湖南隆回人,华南理工大学经济与贸易学院博士生,主要研究方向:资本市场与财务决策与控制。李定安(1945-) ,男,教授,博士生导师,主要研究方向:资本市场与资本运营、财务决策与控制。通讯地址:华南理工大学研究生第四宿舍 308 室邮 编:510641电 话:020-85294611 或 13570939367E-mail: .引言公司失败是一
5、个通用的术语,国际上已有许多学者对公司失败进行了研究,如 Altman(1983), Peel(1990)和 Morris(1997 )等人 。公司失败的一个极端的意义为清算,另一个极端的意义仅为报告的利润数字比预期的低。在此二者之间有各种可能的精确定义。显然,公司失败包括公司破产,对于一个公司,公司破产意味着债权人的清算或指定接收者。然而,公司失败更广泛地包括财务困境这样的情况,公司失败决策也是一项财务决策, 这倒不是因为公司本身面临失败可能,而是因为公司可能正与潜伏财务危机的公司发生着业务关系。经营管理者、股东和债权人必须时刻警惕本公司以及其他有关公司的失败问题。当一个上市公司无能力履行合
6、同、按时支付债权人利息和偿还本金时, 该上市公司就面临财务失败。从资产存量的角度静态来看, 通常表现为上市公司总资产帐面价值低于总负债帐面价值, 即上市公司净资产为负值; 从现金流量的角度动态来看,通常表现为上市公司缺乏偿还即将到期债务的现金流入,现金总流入小于现金总流出, 即上市公司净现金流量为负值。公司失败也是一个世界性的问题,如在美国每年大约有 0.5%的公司必须考虑失败问题,公司失败的预测长期以来一直是理论界及实践者的一个主要的研究领域,它对公司的持股者,如投资人、债权人、雇员及经理等显然是非常重要的。自 1986 年我国通过破产法以来,破产企业的数目逐年增加,而且以国有大中型企业、债
7、务人申请破产居多, 我们同样面临着公司失败或破产问题。结合我国目前的实际情况,将上市公司中的 ST 板块的公司(包括 ST 公司、SST 公司、 *ST公司及 S*ST 公司)视为公司失败。ST (特别处理)公司是财务状况异常的公司,其中财务状况异常指公司连续两年出现亏损或公司净资产低于公司股票面值。ST 制度正式运用于我国股市始于1998 年;SST 公司指没有股改并且业绩亏损的上市公司; *ST 公司和 S*ST 公司可以看作是公司经营失败的极端体现, *ST 公司股票是指有退市风险的个股, S*ST 公司指尚未股改随时可能退市的ST 公司, S*ST 公司运用于我国股市始于 2005 年
8、。ST 板块的公司在下文统称 ST 公司。截止 2006年底,沪、深两市共有 ST 公司 152 家。最初,用于公司分类问题的模型主要有统计方法,如单变量统计、多维区分分析、Logit 方法、Probit 方法及线性概率模型等( Altman 等人,1977;Collin 等人,1972) 。随着人工智能的研究及应用,一些研究人员将归纳学习及神经网络应用于企业领域(Chung 等人,1992;Fletcher 等人,1993) ,目前多变量决策分析(MCDA)及粗糙集理论已被成功地应用于现实世界的分类问题中(Slowinski 等人, 1995)。Pawlak 提出的粗糙集(Rough Set
9、s, 简称 RS)理论是处理知识,特别是不精确、不相容知识的一种新的数学工具。RS 的一个优点是它不需要关于数据的先验的或附加的信息,如统计概率分布及模糊集合理论中概率值的隶属级别,所以对问题的不确定性描述或处理可以说是比较客观的,该理论对知识给出了形式化的定义,使得对知识能够进行有效的分析和操作。此外,RS 理论还提供了一套从数据中自动获取知识的工具 ,即知识约简。目前, RS 理论正在被广泛应用于人工智能、模式识别等很多领域。 基于粗糙集理论的特点,将其应用于知识获取领域,可支持知识获取的多个步骤,如数据预处理、数据约简、规则生成、数据依赖关系获取等。国内对公司失败的研究还比较少,应用的方
10、法也主要为统计分析法。而应用粗糙集理论对企业财务困境进行分析的文献仅有以下几篇:肖智等人(2004)把粗糙集理论应用于企业财务危机预测中。马若微(2005、2006)运用粗糙集和信息熵原理,基于沪深两市所有 A 股上市公司数据,提出了一种客观选择财务困境预警模型指标的方法,建立了财务困境预测模型。张志恒和花拥军(2005)把粗糙集的数据挖掘技术应用于企业财务危机的预测中。.正是基于此逻辑,本文将粗糙集理论应用于我国上市公司失败的预测研究,利用沪、深两市上市公司 2005 年的财务报表数据,研究在我国目前的经济环境、会计环境下,失败的上市公司在财务报表上共同的、区别于非失败公司的本质特征,通过几
11、个关键的属性变量将非失败公司与失败公司区分开来,并对公司失败做出了预测。一、粗糙集方法1.信息系统设 S=(U,A,V,f)为一个信息系统,也称为知识表示系统。其中,U= U1,U2,U3,U|u|为有限非空集合,称为论域对象空间;A=a 1,a2,a3,a|A|为属性的非空有限集合。若 A 中的属性又可分为两个不相交的子集,即条件属性集 C 和决策属性集 D,A=CD,CD= ,则 S 也称为决策表。 V=V a 其中 aA , Va 为属性 a 的值域;f:UA V 为信息函数,对于 aA 、 xU,f(x,a)V a,它指定了中每一对象的属性值。2不可分辨关系令 aA,xU,f(x,a)
12、V a;对于任一子集 P A,在 U 上的不可分辨关系 I(P)定义为:I(P)=(x,y)UU:f(x,q)=f(y,q) qP 若(x,y)I(P),则称 x 和 y 是 P-不可分辨的。显然,这样定义的不可分辨关系是一个等价关系。关系 I(P)中的所有等价类的全体表示为 U|I(P)。3.近似集合令 S 为信息系统,X 为 U 中的一个非空子集,且 P A,则 X 的 P-下近似和 P-上近似分别定义如下:PX=yU|I(P):Y XX=yU|I(P):YX 4近似质量令 X= X1,X2,X n为 U 的一个划分,其中子集 Xi,i=1,n,为 X 的一个类别,则近似质量定义为: |)
13、(1PiiP近似质量 表示所有由属性集 P 正确分类的对象与系统中所有对象的比率。X5.属性依赖、属性约简与核实际应用中的一个非常重要的问题是属性依赖。若 I(P) I(R),则 R 中所有属性值唯一地由P 中的属性值决定,即属性集 R A 完全依赖于属性集 P A,表示为 P R。粗集理论中的另一个重要的问题是关于属性的约简,约简的属性集的分类质量与原属性集的分类质量相同。若最小的属性子集 P C A, 满足 = ,则集合 P 称为 C 的一个约简,)(XPC记为 RED(P)。简单地说,约简是不含多余属性并保证正确分类的最小条件属性集。信息系统可能有不只一个约简,所有约简的交称为信息系统的
14、核,表示为:CORE(P)= , i=1,2,)(PREDii核是信息系统最重要的属性集,它也可能是空集。.6.决策规则论域中所有条件元素的集合,称为 S 中的条件类,由 XI(i=1,2,k)表示;论域中所有决策元素的集合,称为 S 中的决策类,用 Yj(j=1,n)表示,X IY j=,则:r: (2)()(jDiCesXes称为(C,D)的决策规则,表示为r ij ,对于 i,j,若 XI Yj ,则规则 rij在 S 中是决策的,否则为非决策的。规则的语法如下:若 f(x,q1)=rq1 and f(x, q2)and f(x, q p)= rqp 那么 xY j1 or Yj2 or
15、 Y jk其中q 1,q2,qp C;(r q1,rq2,rqp)V q1Vq2V qp;Y j1,Yj2 , Y jk 为决策类。若结果一致,如 k=1,那么规则是确切的,否则规则为近似的。二、基于粗糙集的上市公司失败预测1数据采集数据来源于 2005 年沪、深两市上市公司的年报数据。至 2005 年底,两市共有 A 股上市公司1195 家,其中 152 家公司亏损,占上市公司总数的 12.72%。从中随机选取 15 家失败公司(ST 公司) ,15 家非失败公司(非 ST 公司)为对照样本,形成训练样本集,用来构造决策规则。剩余的公司中,随机选取 15 家失败公司及 15 家非失败公司,作
16、为支持样本集,用来验证决策规则。在下列的分析中,决策属性是公司分类属性用 d 表示,失败公司的代码为 1,非失败公司的代码为 2。总共收集了 8 个条件属性变量用来(进行公司失败粗糙集分析) 生成规则,其中:A1-总股本(万股) ;A 2-流通股(万股) ;A 3-每股收益(元) ;A 4-每股净资产;A 5-每股现金流;A 6-净资产收益率(%);A 7-主营业务收入(万元) A8-净利润。表 1:2005 年沪、深上市公司年报训练样本集股票代码总股本(万股)A1流通股(万股)A2每股收益(元)A3每股净资产(元)A4每股现金流(元)A5净资产收益率(%)A6主营业收入(万元)A7净利润(万
17、元)A8公司分类d000004 8398 4166 -0.162 1.007 0.1237 -16.06 6,137.67 -1,357.7 1000007 14359 7956 0.06 0.61 -0.0086 9.44 35,058.84 829.56 2000011 54180 9139 0.153 1.2 -0.0022 15.95 96,348.10 8,290.27 1000025 22028 3428 0.0258 1.025 -0.058 2.51 10,4381.07 567.63 1000065 16244 5651 0.15 2.7 -0.1185 5.43 124,6
18、19.95 2,382.53 2000405 38093 11292 -0.97 -1.424 -0.0001 -68.16 0.00 -36,972.16 1000411 11525 3415 0.05 0.715 0.6579 7.07 247,532.78 583.09 2000413 38300 4507 -0.95 0.69 0.0570 -136.57 7,874.40 -36,353.14 2000430 18360 7436 -0.3622 1.0066 0.0059 -35.98 14,264.51 -6,650.63 1000533 57568 20371 -0.2546
19、0.7614 0.0131 -33.44 137,293.46 -14,658.64 2000536 12193 4547 0.0127 -0.1010 0.0058 -12.55 8,552.14 169.82 1000546 16951 8495 0.06 1.27 -0.1273 4.57 10,551.59 980.35 2000571 73606 33716 0.0131 1.2008 0.0777 1.09 208,049.17 963.80 2.000613 36410 4510 0.0206 -0.129 0.0021 -15.99 1,478.93 749.44 100068
20、7 32080 13451 -0.4620 2.5200 -0.4296 -18.30 52,097.27 -14,811.76 2000788 19250 4950 0.0700 1.1400 -0.0189 5.9 47,203.28 1,300.59 2000838 6512 1755 0.0700 1.3500 0.0398 5.13 12,928.87 452.5 2000922 29844 13430 -0.3104 0.8907 -0.1015 -34.85 10,694.01 -9,264.56 2600155 41250 12000 0.1002 2.299 -0.1864
21、4.359 207,554.78 4,134.89 1600225 22110 9515 -1.255 0.5 -0.2329 -248.8 15,219.11 -27,756.17 1600056 2.0856 6240 0.35 3.2765 1.1345 10.62 192,967 7,258 2600083 23000 13573 -0.199 -0.108 -0.0216 -184.54 11,895.01 -4,577.38 1600088 23673 7800 0.086 3.17 -0.2108 2.71 41,759 2,033.82 2600097 11545 3500 0
22、.11 1.49 0.1714 7.37 33,811.17 1,267.03 2600106 31000 1.2417 0.2682 3.63 -0.545 7.39 23,542.14 8,312.76 2600721 9480 4650 -1.28 0.05 0.063 -2604.88 4,617.52 -12,111.97 1600743 31280 7820 0.0063 0.0165 -0.0108 38.35 14,623.48 197.43 1600753 12800 3200 -0.1968 0.89 -0.0035 -22.22 852.18 -2,519.6 16008
23、48 39929 3367 0.014 0.33 0.0112 4.26 76,277.12 553.83 1600076 25322 12480 -1.0506 1.14 0.0097 -92.17 26,599.43 -26,603.75 1资料来源:中国上市公司数据库,经本研究整理。2. 数据离散在应用粗糙集理论处理数据前,连续变量必须进行离散化,离散的结果,原始数据的精度可能减少,但它的一般性将增加,当离散的子区域由某一领域的专家根据它的判断或使用在该主题领域确定的标准指定时,称为专家离散,另一方面,当它们被自动定义时,称为自动离散。在机器学习 community 的研究中,有许多有监
24、督的离散法和未监督的自动离散方法,这些方法目前很少应用于基于粗集模型的经济和金融预测中。粗糙集理论分析要求数据必须以类别的方式呈现,因此,连续数据必须首先进行离散化处理,对于连续变量的离散化方法可分为有监督离散法和无监督离散法,无监督离散法可视为一个简单的聚类过程;如基于等频率区间法、等大小宽度区间法。连续变量的有监督的离散化方法可分为两类,全局离散方法与局部离散方法,局部离散方法仅考虑决策表的子区域,且通常一次包括一个连续条件属性变量的离散,如最小熵法、及将 Chi 平方统计变量作为适合性度量的 Chi 合并方法、Chi2 方法等;而全局离散方法在离散过程中考虑条件属性组,如采用基于粗糙集理
25、论的终止标准,构造一个全局的聚类方法。大多数研究者给出了基于领域专家知识的代码信息表,当然专家的经验比自动化离散方法更能给出合理的分割点,但是,有时由于缺乏专家的监督,或者在该模型中包含更新的指示因子,我们必须借助于自动离散方法。本文应用一个有监督的局部离散方法最小熵法进行数据离散,最小熵技术是一个不依赖于专家而将数据离散为要求区间数的一个客观方法。该方法提连续变量离散化技术,本文借鉴 Liang (1992) ,提出了一种基于熵的离散方法,其基本思想为:循环划分每个属性的值集,以便熵的局部度量是最优的。最小描述长度准则定义了划分过程.的终止标准。例如,一个集合 K 的信息熵值为:E(K)=
26、imiimi PPlog)/1(log11其中,P i 为类 Ki 在实例 K 中的比率。当类 Ki 用属性 Tj 划分集合 K 时,信息熵 E(Tj)的值为:E(Tj)= )(iiLEw其中,L i 为由属性 Tj 划分的较低级别的集合,w i 为 Li 中的实例数与 K 中实例数的比率。分类类熵最大的分割点,将被选择为下一个阶段的划分,熵值用于表示划分变量对输出结果的贡献。进一步对分割区域进行划分,直至满足停止标准为止。这个算法在搜寻截点时,缺失值被忽略,若对于一个属性没有找到截点,则属性不被处理。本文提出一种基于信息熵的启发式离散方法。给定的启发式函数来自信息理论且基于确定信息量- 熵的
27、函数。l(o 1,o2,om)= (1)mjimijioo11lg函数(1)度量了熵的数量,它依赖于用于样本决策的训练对象数,返回值总在区间0,1 上,如属性集为A 1,A2, A3, , Aiv,属性 Ai 将训练集 C 分为 Ci1, Ci2, , C iv,其中 Cij 包含属性值 Aij 的训练对象。用于属性评价的启发式函数如(2)式所示,其中 oijk 为训练集 Cij 中的训练对象数,属性 Ai值等于 AikE(C,Ai)= (2),.(211ijmijvjmkijkolo用最小的 E(C,Ai)值划分属性区间 E(C,Ai), (值最适宜于属性划分区间) 。数值属性通常表示为区间
28、minimummaximum。依赖于训练对象在该区间的位置,这个区间被分为两部分。然后所有的训练对象按照值排序,我们将函数(2)作为阈值评价所有的候选对象,如我们已经提到的,具有最小的 E(C,Ai)值是划分区间最适宜的属性。3. 属性约简从一个空集开始,然后一个接一个地增加属性,每一次选择增加最大分类质量 的属性)(XP加入当前的属性子集,当分类质量 达到 1 或已加入所有的属性时,停止搜寻。加入所有的)(XP属性不一定会使 为 1,在这样的事例中,数据集不能被正确地分类。)(XP约简对于在模型中分类对象最终构建一系列规则是重要的,这个问题是一个 NP 完全问题。然而,在许多实际应用中,不必
29、要计算出所有的约简,而仅需计算出它们中的一些。例如,Slowinski(1995)等人提出应用分类规则和新对象相应属性间的距离来度量,将新的对象分至距离较近的类别,使用下列的启发性过程获得了最满意的约简。从选择具有最大分类质量的一个属性开始,然后添加一个使这两个属性的分类质量增加最大的属性,再添加一个使这三个属性的分类质量增加最大的属性,以此类推。直到由属性子集达到的分类质量最大。在这个过程结束的时候应该验证,获得的子集是否最小,例如,若从这些子集中去除任何属性保持分类质量不变,则可用作进一步分析,通常考虑一个约简的数据表足够了,其中,属性集 Q 限定为最满意的约简。.已有许多文献讨论了研制用
30、于粗糙集的效率更高的计算方法。现有的文献探讨了约简的两个主要方面,一方面是为给定的系统寻找约简的问题,另一方面是寻找每个对象的局部约简问题,如遗传算法。指定类型约简的进一步研究有,动态约简、相容性约简等。遗传算法是解决最优化问题的一个有用的工具,遗传算法是一种群体型操作,该操作以群体中的所有个体为对象。选择、交叉和变异是遗传算法的 3 个主要操作算子,它们构成了所谓的遗传操作。本文提出一种基于遗传算法的搜寻最小属性约简的方法,具体算法描述如下:在遗传算法中,使用群体,在两进制串中,每一个基因型个体群表示被考虑为一个可能约简的一个属性组(B A) ,然后我们评价每个个体决定它是否确实是一个约简,
31、若不是,它距一个约简有多近。然后通过两极随机过程选择个体,并重组生成预期为更好近似的新个体,这个过程当满足停止标准时结束。用二进制串表示群体,每一个两进制串编码一个可能为约简的条件属性子集 P C,两进制串中每一位表示条件属性的子集 P C 中的每一个属性,然后评价每个个体决定它是否确实是一个约简,若不是,它距离一个约简有多远。然后通过两极随机过程选择基因型个体,并重组生成预期为更好近似的新的基因型个体,重复这个至到满足停止标准时结束。应用上述描述的遗传算法对表 1 训练样本经离散后数值表的八个条件属性进行约简,求得的最小属性约简如表 2 所示。 表 2 最小属性约简表净资产收益率, 主营收入
32、每股收益, 每股净资产每股收益, 主营收入流通股, 净资产收益率流通股, 每股净资产流通股, 每股收益流通股, 主营收入每股净资产, 净资产收益率总股本, 净资产收益率流通股, 净利润总股本, 每股收益4规则发现由约简每股收益, 每股净资产 生成的规则如表 3 所示。表 3 规则发现表分类规则 支持数每股收益(元)(0.079, 0.099 AND 每股净资产(元)(*, 1.382 = 分类(1) 3每股收益(元)(0.133, 0.139 AND 每股净资产(元)(*, 1.382 = 分类(1) 1每股收益(元)(*, 0.062 AND 每股净资产(元)(*, 1.382 = 分类(1
33、) 4每股收益(元)(*, 0.062 AND 每股净资产(元)(1.497, 1.573 = 分类(1) 1每股收益(元)(0.062, 0.069 AND 每股净资产(元)(*, 1.382 = 分类(1) 1每股收益(元)(0.147, 0.149 AND 每股净资产(元)(*, 1.382 = 分类(1) 1.每股收益(元)(*, 0.062) AND 每股净资产(元)(1.785, 1.995) = 分类(1) 1每股收益(元)(0.105, 0.112 AND 每股净资产(元)(*, 1.382 = 分类(1) 2每股收益(元)(0.155, 0.165 AND 每股净资产(元)(
34、*, 1.382 = 分类(1) 1每股收益(元)(0.149, 0.155 AND 每股净资产(元)(2.120, * = 分类(2) 2每股收益(元)(0.099, 0.105 AND 每股净资产(元)(1.382, 1.497 = 分类(2) 1每股收益(元)(0.112, 0.133 AND 每股净资产(元)(1.382, 1.497 = 分类(2) 1每股收益(元)(0.069, 0.079 AND 每股净资产(元)(*, 1.382 = 分类(2) 1每股收益(元)(0.069, 0.079 AND 每股净资产(元)(2.120, * = 分类(2) 1每股收益(元)(0.165,
35、 *) AND 每股净资产(元)(1.573, 1.785) = 分类(2) 1每股收益(元)(*, 0.062) AND 每股净资产(元)(2.120, *) = 分类(2) 3每股收益(元)(0.112, 0.133) AND 每股净资产(元)(2.120, *) = 分类(2) 1每股收益(元)(0.165, *) AND 每股净资产(元)(1.995, 2.095) = 分类(2) 1每股收益(元)(0.139, 0.147) AND 每股净资产(元)(1.573, 1.785) = 分类(2) 1每股收益(元)(0.112, 0.133) AND 每股净资产(元)(*, 1.382)
36、 = 分类(2) 1每股收益(元)(0.139, 0.147) AND 每股净资产(元)(2.120, *) = 分类(2) 1接下来,我们对规则进行化简,合并区间包含的类别,并删除支持很小,如小于 3 的类别。根据财务专业知识,可知每股收益愈高,每股净资产值愈大,愈不宜将此公司划分为失败类,所以可将在某一阈值范围内的区间划分为一类,删除矛盾的规则,同时若支持数很小,如小于 3,可将其视为随机规则而将其删除,经以上处理,由约简每股收益, 每股净资产 生成的规则,进行化简后生成的规则表如表 4 所示。表 4 规则发现及简化表规则编号 规则表示支持数1 每股收益(元)(*, 0.155) AND
37、每股净资产(元)(2.120, *) = 分类(2) 72 每股收益(元)(0.099, *) AND 每股净资产(元)(1.382, *) = 分类(2) 33 每股收益(元)(0.112, 0.133) AND 每股净资产(元)(*, 1.497) = 分类(2) 24 每股收益(元)(0.079, 0.112) AND 每股净资产(元)(*, 1.382) = 类别(1) 55 每股收益(元)(*, 0.062) AND 每股净资产(元)(1.497, 2.120) = 类别(1) 36 每股收益(元)(*, 0.069) AND 每股净资产(元)(*, 1.382) = 类别(1) 1
38、05. 规则验证将 15 个失败公司和 15 个非失败公司首先用熵法进行离散,然后用表 4 的规则进行验证,判别约简中的条件属性是否与规则精确地匹配,分析结果如表 5 所示。表 5 训练样本与验证样本规则支持对比表训练样本 支持样本规则编号 支持数 支持强度 支持数 支持强度1 5 16.7% 1 3.3%2 3 10% 6 20%.3 2 6.7% 2 6.7%4 5 16.7% 1 3.3%5 3 10% 1 3.3%6 10 33.3% 15 50%其中样本支持数指满足规则的样本数,样本支持率指满足分类规则的样本数在样本集中的相对频率。分析表明,训练样本集由约简每股收益, 每股净资产生成
39、的规则数共 6 条,在 30 个训练样本集中,2 个样本对象被误分,28 个对象被正确分类,正确分类的比率为 93.3%;30 个支持样本集中,正确分类的对象数为 26 个,其中 4 个样本对象被误分,正确分类的比率为 83.3%。三、结论本文将粗糙集应用于一个重要的企业决策问题,公司失败预测问题。分析结果是令人满意的(鼓舞人心的) 。应用最小熵法对数据进行自动离散,解决了在缺少专家的情况下的数据离散问题。因为使用专家分类可能是不现实的、相对昂贵且可能会对数据引入超出误差级别的主观偏差。应用启发式算法遗传算法对离散的训练样本集搜寻约简,并生成相应的规则集,对相应的规则集进行化简,如合并包含区间
40、,本研究结果发现在训练样本集和支持样本集中均获得了合理的预测精度。在公司失败预测中,粗糙集有许多好的性质,如信息质量和形成清晰的预测规则,这些可以在专家系统中使用。应用粗糙集生成的规则相对来说是简单的、全面的且对于决策领域来说是直观的,使用者不必拥有技术知识与解释分类模型相关的专业知识,这些特性对于决策者来说是非常有用的。本文提供的粗糙集结果是实验的,并且不一定表明新的技术一定优于现存的技术,关于这个问题仍需要进一步研究,如粗糙集的抽样性质的研究,当连续数据离散为可用的粗糙集理论数据时对于使用者来说潜在的信息损失,以及如何处理与分类规则不相匹配的类别,或者新对象与不止一个规则匹配这种情况。An
41、 (996)等人指出,如何最优化地离散属性变量值仍没解决,这是一个正地进行研究的问题。还有学者提出了将约简数据集输入神经网络作为粗集的补充限制,最终生成了新数据集的准确预测。这些领域的许多课题仍需进一步的研究。参考文献1 陈瑜:对我国证券市场 ST 公司预测的实证研究J, 经济科学 2000 年第 6 期,pp. 57-67 。2 高培业、张道奎:企业失败判别模型实证研究J, 统计研究2000 年第 10 期,pp. 46-51。3 马若微:基于粗糙集与信息熵的上市公司财务困境预警指标的确立J, 当代经济科学2005 年第 2 期。4 马若微:基于 RS 与 ANN 的上市公司财务困境预测模型
42、的实证研究J , 南开管理评论2006 年第 3 期。5 肖智、张志恒、黄海生:粗糙集理论在企业财务危机预测中的应用 J, 统计与决策2004 年第 3 期。6 张志恒、花拥军:基于粗糙集的数据挖掘技术在企业财务危机预测中的应用C,全国第九届企业信息化与工业工程学术会议论文集, 2005。7 Altman E., 1983, Corporate financial distress: a complete guide to predicting, avoiding and dealing with bankruptcy,MNew York: Wiley. 8 An A, Shan N, Cha
43、n C, Cercone N, Ziarko W., 1996, Discovering rules for water demand prediction: an enhanced rough-set approach,JEngineering Applications in Artificial Intelligence, 9(6):pp.645-6539 A. Skowron,C.Rauszer.,1992,The discernibility matrices and function in information systems, in: R. .Slowinski(Ed.), In
44、telligent Decision Support-Handbook of Applications and Advances of the Rough Sets Theory, MKluwer Academic Publishers, Dordrecht, pp.331-362.10 B.S.Ahn,SS.cho, C.Y.Kin.,2000,The integrated methodology of rough set theory and artificial neural netwouk for business failure prediction,JExpert Systems
45、with Application, 18: pp.65-74.11 David E. Goldberg.,1997,Genetic algorithms in search, optimization and machine learning,MAddison-Wesley Publishing Co. Inc.12 Greco S., Matarazzo B., Slowinski R., 2001,Rough sets theory for multicriteria decision analysis,J Eropean Journal of Operational Research,1
46、29:pp.1-47.13 Liang, Ting-Peng, Chandler, John S, Han, Ingoo, Roan, Jinsheng.,1992, An empirical investigation of some data effects on the classification accuracy of probit, ID3, and neural networks,JContemporary Accounting Research. Toronto, 9:pp.306-329.14 Morris R., 1997,Early warning indicators
47、of corporate failure: a critical review of previous research and further empirical evidence,M.Ashgate: Aldershot. 15 Peel M., 1990, The liquidation/merger alternative,M Avebury: Aldershot.16 Pawlak Z. Slowinski K, Slowinski R., 1986,Rough classification of patients after highly selective vagotomy fo
48、r duodenal ulcer,JInternational Journal of Man-Machine Studies, 24:pp.413-433.17 Pawlak Z, Grzymala-Busse J, Slowinski R, Ziarko W., 1995,Rough sets. Association for Computing Machinery,JCommunications of ACM , 38(11):pp.89-96.18 Slowinski,Pawlak, Zdzislaw, Grzymala-Busse, Jerzy, Roman, Ziarko, Wojciech.,1995,Rough sets.Association for Computing Machinery,J Communications of the ACM. New York, 38: pp.89-96.19 Stefanowski J., 1992, Classification s