1、基 于 K 均 值 聚 类 和 主 成 分 分 析 的 上 市 公 司 业 绩 评 价 指 标 研 究JIANG Bing,WANG Qian,DING Hu-song School of Management, Hefei University Of Technology, P.R.China,230009摘 要 : 评价指标体系的确定是上市公司经营业绩评价研究的一个重要方面,其研究的立足点是如何权衡指标的全面性和代表性。本文提出了综合运用多元统计分析中的 K 均值聚类分析和主成分分析对上市公司众多业绩指标进行先分类再筛选的指标确定方法。首先运用 K 均值聚类分析对备选指标进行分类,并根据
2、F 统计值的大小,确定适宜的分类数;然后对含有较多指标的类运用主成分分析进一步筛选指标。在实证研究中,以车类板块 28 家上市公司自 2003-2005 连续三年的 32 个业绩指标为数据样本,运用 K 均值聚类分析和主成分分析,结合实际意义,最终从 32 个备选指标中选出 12 个指标;通过将 12 个和 32 个指标所得出的指标归一化平均值所作的评价进行比较,表明筛选的 12 个指标具有很好的全面性和代表性。关键词:F 统计值,指标选择,K 均值聚类,上市公司,主成分分析 Abstract: Establishment of index systems evaluating listed
3、companies business performance is an important aspect of company performance evaluation which is based on how to weigh the entirety and typification of indices systems. In this paper,a method integrating K-means clustering with principal component analysis in multivariant statistics to classify and
4、select indices for listed companies performance evaluation is proposed. first the classification is decide using K-means clustering and the number of cluster is determined according to F-statistic. Then the indices in the classes including more indices are filtrated by principal component analysis.b
5、 In practical study,taking 32 performance indices of 28 stocks in vehicle trade from 2003 to 2005 as example,12 indices are chosen from 32 indices to be selected at last by integrating K-clustering with principal component analysis. Comparing the evaluation according to the average of unitary indice
6、s calculated by 12 indices with that calculated by 32 indices verifies that 12 indices selected are of good entirety and typification.Keywords: F-statistic, Index selection, K-means clustering, Listed companies, Principal component analysis1 引 言随 着 我 国 证 券 市 场 的 发 展 , 对 上 市 公 司 经 营业 绩 的 综 合 评 价 已 成
7、为 理 论 与 实 践 界 研 究 的 热点 。 其 中 关 于 综 合 评 价 指 标 体 系 的 建 立 , 目 前 的做 法 一 般 是 从 上 市 公 司 披 露 的 数 据 指 标 中 选 择 一部 分 构 成 指 标 体 系 , 且 多 数 是 出 于 评 价 主 体 需要 而 人 为 设 定 12。 众 所 周 知 , 对 综 合 评 价 指 标的 选 择 , 既 要 求 指 标 能 很 好 地 反 映 研 究 对 象 某 方面 的 特 性 , 即 代 表 性 ; 又 要 求 能 反 映 对 象 的 全 部信 息 , 即 全 面 性 3。 若 要 满 足 全 面 性 , 势 必
8、要增 加 指 标 数 量 , 而 增 加 了 指 标 数 量 , 指 标 间 相 关程 度 可 能 增 大 , 又 影 响 了 代 表 性 。 对 上 市 公 司 来说 , 媒 体 披 露 的 是 大 量 的 指 标 数 据 序 列 , 仅 财务 指 标 就 多 达 56 项 。 如 何 从 众 多 的 数 据 信 息 中提 炼 出 满 足 评 价 要 求 的 少 数 指 标 , 尤 其 是 如 何 权衡 指 标 的 全 面 性 和 代 表 性 , 是 一 个 尚 未 得 到 很 好解 决 的 问 题 。 对 此 , 本 文 以 我 国 车 类 板 块 上 市 公司 业 绩 评 价 指 标 选
9、 择 为 例 , 综 合 运 用 聚 类 分 析 法和 主 成 分 分 析 法 选 择 上 市 公 司 业 绩 综 合 评 价 指 标 。其 思 路 是 : 本 着 指 标 选 择 的 基 本 原 则 , 初 步 选 择能 联 合 反 映 上 市 公 司 整 体 特 征 的 每 个 方 面 , 在 此基 础 上 , 用 K 均 值 聚 类 分 析 进 行 分 类 , 并 根 据F 统 计 值 来 确 定 合 适 的 分 类 数 ; 然 后 用 主 成 分 分 析对 有 关 类 选 择 代 表 性 指 标 。 这 样 , 通 过 聚 类 分 析使 指 标 体 系 涵 盖 所 有 的 类 ; 通
10、过 主 成 分 分 析 提 取代 表 性 指 标 , 从 而 将 代 表 性 和 全 面 性 完 美 结 合 起来 。2 K 均 值 聚 类 分 析 和 主 成 分 分 析2.1 K 均 值 聚 类 分 析聚 类 分 析 是 直 接 比 较 各 事 物 之 间 的 性 质 , 将性 质 相 近 的 归 为 一 类 , 将 性 质 差 别 较 大 的 归 入 不同 的 类 。 聚 类 分 析 又 分 为 系 统 聚 类 和 K 均 值 聚 类 。K 均 值 聚 类 又 称 为 逐 步 聚 类 法 4, 先 把 被 聚类 对 象 进 行 初 始 分 类 , 然 后 逐 步 调 整 , 得 到 最
11、终分 类 。 其 步 骤 为 :( 1) 将 数 据 进 行 标 准 化 处 理 ;( 2) 假 设 分 类 数 目 为 K, 确 定 每 一 类 的 初 始中 心 位 置 , 即 K 个 凝 聚 点 ;( 3) 按 顺 序 计 算 各 个 样 品 与 K 个 凝 聚 点 的距 离 , 根 据 最 近 距 离 准 则 将 所 有 样 品 逐 个 归 入 凝聚 点 , 得 到 初 始 分 类 结 果 ;( 4) 重 新 计 算 类 中 心 ;( 5) 所 有 样 品 归 类 后 即 为 一 次 聚 类 , 产 生 了新 的 类 中 心 , 如 果 满 足 一 定 的 条 件 如 聚 类 次 数
12、达到 指 定 的 迭 代 次 数 , 或 者 两 次 计 算 的 最 大 类 中 心的 变 化 小 于 初 始 类 中 心 之 间 最 小 距 离 的 一 定 比 例 ,则 停 止 聚 类 , 否 则 就 转 到 第 3 步 。为 了 确 定 合 适 的 分 类 数 目 K, 本 文 利 用ANOVA 方 差 分 析 ( F 检 验 ) 来 确 定 合 适 的 分 类数 5, 其 原 理 是 :设 随 机 变 量 x 呈 正 态 分 布 , 均 值 为 , 方差 为 2, 记 为 N( , 2), 若 x1 , x2 , , x n 相 互 独 立 , 且 xi N( i,1), 则 称 随
13、机 变 量为 自 由 度 为 N, 非 中 心 参 量 为iX1的 2 分 布 , 记 为 。 i2,又 设 X1, X2 是 独 立 随 机 变 量 , 且X1 、 X2 , 称 比 例,N0,2N是 自 由 度 为 N1 和 N2、 非 中 心,/|21F参 量 为 的 F 分 布 。F 概 率 分 布 函 数 可 以 由 高 斯 概 率 分 布 函 数P( x) 近 似 : (1)(|(,21xN其 中(2) 3121231()9()NxFF 分 布 的 均 值 为 :(3) 122, 2,NFE当方 差 为 :(4)1221, 22(),N当当 F 统 计 值 大 于 给 定 水 平
14、下 的 临 界 值 时 , 说明 类 间 差 异 显 著 , 所 进 行 的 分 类 合 理 。 据 此 , 我们 可 以 遍 取 不 同 的 K 分 类 数 , 以 F 统 计 值 最 大者 对 应 的 分 类 为 最 终 分 类 。2.2 主 成 分 分 析主 成 分 分 析 原 理 是 利 用 降 维 的 思 想 , 将 多 指标 重 新 组 合 成 一 组 新 的 相 互 无 关 的 几 个 综 合 指 标( 主 成 分 ) 来 代 替 原 来 的 指 标 6。 根 据 主 成 分 的权 向 量 , 还 可 从 原 指 标 中 提 取 少 数 代 表 性 指 标 ,并 使 之 尽 可
15、能 多 地 反 映 原 指 标 的 信 息 。 虽 然 这 样做 会 损 失 部 分 信 息 , 但 由 于 既 减 少 了 变 量 的 数 目又 抓 住 了 主 要 矛 盾 , 从 而 有 利 于 问 题 的 分 析 和 处理 。设 n 个 指 标 的 m 组 样 本 Yij, i=1,2, , m; j=1, 2, , n, 运 用 主 成 分 分 析 筛 选少 数 主 要 指 标 的 步 骤 是 :( 1) 对 样 本 进 行 标 准 化 处 理 , 其 计 算 公 式 为 :(i=1,2,m; j=1,2,n) jiijSyx( 5)(j=1,2,n) 1mjijY( 6)(j=1,2
16、,n) ( 7) 式 中 : Yij第 j 指 标 的 第 i 样 本 数 据 ;Xij样 本 标 准 化 数 据 , 标 准 化 结 果 是 使 Xij 的均 值 为 0, 方 差 为 1。( 2) 利 用 样 本 标 准 化 数 据 计 算 相 关 系 数 估 计总 体 协 方 差 矩 阵 R=( rij) n*n, 其 计 算 公 式 为 :(i,j=1,2,n) ( 8)根 据 协 方 差 矩 阵 R 计 算 n 个 非 负 特 征 值 i, i 的 特 征 向 量 为 第 i 主 成 分 的 权 系 数 , i 本 身 则 为 第 i 主 成 分 占 总 体 信 息 量 的 贡 献
17、程 度 ;(3) 选 择 近 似 于 零 的 特 征 值 ( 表 明 对 总 体 贡献 最 小 ) , 求 其 特 征 向 量 , 将 该 向 量 中 具 有 最 大 绝对 值 分 量 所 对 应 的 指 标 删 除 ( 表 明 在 贡 献 最 小 的主 成 分 中 起 较 大 作 用 ) ;(4) 对 剩 下 的 指 标 样 本 , 重 复 ( 2) ( 3)步 减 少 指 标 个 数 , 直 至 剩 下 的 指 标 满 足 方 差 , 且 易 于 解 释 为 止 。3 基 于 K 均 值 聚 类 和 主 成 分 分 析 的 指 标 选择 基 于 K 均 值 聚 类 和 主 成 分 分 析
18、选 择 上 市 公司 业 绩 评 价 指 标 , 包 括 对 指 标 进 行 分 类 和 筛 选两 个 步 骤 。 首 先 通 过 K 均 值 聚 类 分 析 把 待 选 指标 分 成 不 同 的 类 , 业 绩 评 价 指 标 必 须 涵 盖 所 有 的类 , 以 符 合 指 标 全 面 性 的 要 求 ; 然 后 对 含 有 较多 指 标 的 类 , 运 用 主 成 分 分 析 对 其 指 标 进 一 步筛 选 , 使 得 各 类 指 标 数 量 趋 于 均 衡 且 有 代 表 性 。为 了 说 明 方 法 的 具 体 运 用 , 本 文 以 有 较 好 数 据连 续 性 和 完 整 性
19、的 车 类 板 块 28 家 上 市 公 司 为例 , 从 这 些 公 司 自 20032005 连 续 三 年 的 众 多业 绩 指 标 数 据 中 , 考 虑 收 益 、 资 本 运 作 、 财 务管 理 、 投 资 能 力 四 个 方 面 7, 初 步 选 出 32 个指 标 数 据 为 分 析 样 本 , 指 标 内 容 见 表 1。2j 2ijj1S=(-)-i21/85%pjSm1221)(mkjkikjjij XrTab.1 32 个 业 绩 指 标每 股 收 益 x1 存 货 净 额x9应 付 账 款x17主 营 业 务收 入 净 额x25每 股 净 资 产x2长 期 股 权
20、投资 x10流 动 负 债 合计 x18主 营 业 务利 润 x26净 资 产 收 益率 x3流 动 资 产 合计 x11长 期 借 款x19管 理 费 用x27每 股 资 本 公积 金 x4长 期 投 资 合计 x12长 期 负 债 合计 x20财 务 费 用x28每 股 经 营 现金 流 量 x5长 期 投 资 净额 x13负 债 合 计x21营 业 利 润x29货 币 资 金 x6 固 定 资 产 净值 x14股 东 权 益 合计 x22利 润 总 额x30应 收 账 款 x7 固 定 资 产 合计 x15负 债 及 股 东权 益 总 计x23净 利 润x31应 收 账 款 净额 x8资
21、 产 总 计x16主 营 业 务 收入 x24固 定 资 产折 旧 x323.1 K 均 值 聚 类 分 析对 样 本Xij|i=1, 2, , 84; j=1, 2, , 32, 使 用SPSS软 件 中 的 K均 值 聚 类 方 法 , 分 别 指 定 类 数2、 3、 .、 10进 行 分 类 , 并 计 算 相 应 的 F统 计 值 。经 检 验 , 当 32个 指 标 被 分 为 410类 时 , F统 计 值均 大 于 给 定 水 平 下 的 临 界 值 , 说 明 所 作 的 分 类 都较 合 理 。 图 1直 观 地 显 示 了 F统 计 值 随 类 数 的 变化 情 况 ,
22、显 见 , 分 类 数 为 7时 F统 计 值 最 大 , 故确 定 将 指 标 分 成 7类 。 具 体 为 : L1=x1、 x2、 x5,L2=x3, L3=x4,L4=x6、 x11、 x14、 x15、 x16、 x17、 x18、 x21、 x22、 x23、 x24、 x25、 x26、 x27、 x29、 x30、 x31,L5=x7、 x8、 x19、 x20、 x28, L6=x9,L7=x10、 x12、 x13、 x32。0501001502001 2 3 4 5 6 7 8 9 10 分 类 数F值Fig. 1 不 同 分 类 数 K 均 值 聚 类 F 统 计 值3
23、.2 类 内 指 标 筛 选在 上 述 分 类 中 , 第 一 类 包 括 每 股 收 益 、 每 股净 资 产 和 净 资 产 收 益 率 3 个 指 标 , 考 虑 到 32 个备 选 指 标 中 , 反 映 收 益 的 指 标 较 少 , 故 这 3 个指 标 均 予 以 保 留 。 第 四 、 五 、 七 类 含 有 较 多 指 标 ,用 主 成 分 分 析 法 对 它 们 进 一 步 筛 选 。 首 先 对 第 四类 17 个 指 标 按 主 成 分 分 析 步 骤 计 算 17 个 特 征 值i ( 见 表 2) , 最 小 特 征 值 1=-4.14E-18, 接 近 零 ,其
24、特 征 向 量 为 ( 3.60E-16, -1.74E-15, -3.84E-18, -0.70206, 2.62E-15, 1.03E-15, 1.49E-15, 1.82E-14, 2.40E-14, 0.70206, -0.084318, 0.084318, 1.26E-14, -6.78E-15, -8.30E-15, 1.30E-14, -9.57E-15) , 其 中 第 410个 分 量 绝 对 值 较 大 , 分 别 为 -0.70206 和0.70206。 由 于 特 征 值 近 似 为 零 , 表 明 该 主 分 量 对总 体 几 乎 没 有 贡 献 , 而 其 特 征
25、向 量 中 第 4 10个 分 量 所 占 权 数 最 大 , 即 在 贡 献 最 小 的 因 子 中 这两 个 分 量 起 主 要 作 用 , 故 将 其 对 应 指 标 x15、 x23删 除 。 对 其 余 15 个 指 标 样 本 重 复 以 上 操 作 , 这样 经 过 7 次 筛 选 已 没 有 较 大 绝 对 值 的 分 量 , 最 终筛 选 出 3 个 主 要 指 标 : x16、 x24 和 x31( 资 产 总 计 、主 营 业 务 收 入 和 净 利 润 ) , 它 们 的 方 差 贡 献P=87.202%。Tab.2 四 类 17 个 指 标 协 方 差 矩 阵 特 征
26、 值 i 表-4.14E-18 1.03E-16 0.00076438 0.00149870.0016767 0.0048632 0.009547 0.0189380.034318 0.055542 0.10747 0.130650.21588 0.57818 0.90772 1.65 13.275对 第 五 类 5 个 指 标 , 按 上 述 步 骤 计 算 得 最 小特 征 值 1= 0.0036601, 接 近 零 , 其 特 征 向 量 为( -0.57721, 0.73488, 0.15057, -0.22633, -0.22996) , 其 中 第 2 个 分 量 绝 对 值 较
27、大 , 为0.73488, 删 除 对 应 指 标 x8。 这 样 经 过 2 次 求 解 ,最 终 筛 选 出 1 个 主 要 指 标 是 x20( 长 期 负 债 ) 。对 第 七 类 4 个 指 标 , 按 上 述 步 骤 计 算 得 最 小特 征 值 1= 1.3878E-16, 接 近 零 , 其 特 征 向 量 为( -4.26E-16, 0.70711, -0.70711, -1.91E-16) ,其 中 第 2、 3 个 分 量 绝 对 值 较 大 , 分 别 为 -0.70711 和 0.70711, 于 是 筛 选 出 2 个 主 要 指 标 :x10、 x32( 长 期
28、股 权 投 资 、 固 定 资 产 折 旧 ) 。至 此 , 综 合 运 用 聚 类 分 析 和 主 成 分 分 析 方 法从 32 个 指 标 中 筛 选 出x1、 x2、 x3、 x4、 x5、 x9、 x10、 x16、 x20、 x24、 x31、 x32 共 12 个 指 标 , 它 们 是 每 股 收 益 、 每 股 净 资产 、 净 资 产 收 益 率 、 每 股 资 本 公 积 金 、 每 股 经 营现 金 流 量 、 应 收 账 款 净 额 、 存 货 净 额 、 长 期 投 资净 额 、 资 产 总 计 、 负 债 合 计 、 净 利 润 、 固 定 资 产折 旧 。4 指
29、 标 选 择 的 合 理 性 分 析为了考察所选出的 12 个指标信息对原 32 个指标信息的涵盖性,我们以 2005 年为例,分别以 12个和 32 个指标,对所选 28 只股票计算每只股票的指标归一化平均值,以该平均值作为业绩评价依据并排序,结果见表 3。由表可见,以不同指标数对样本所作的评价基本一致,评价值相关系数达 0.8。若分别以前 8 名、中间 12 名和后 8 名,将公司业绩对应分为好、中、差三类,则评价为好的 8 家公司中,有 6 家是共同的、评价为中等的 12 家公司中,有 10家是共同的、评价为差的 8 家公司中,有 5 家是共同的,评价结论一致的公司占 75%。图 2 直
30、观地反映了以 12 个和 32 个指标所得出的平均值情况,从相对评价角度来看,两者非常接近。Tab.3 按 不 同 指 标 数 得 出 的 指 标 归 一 化 平 均 值按 12 个 指 标 评 价名 次 代 码 平 均 值 名 次 代 码 平 均 值1 600066 0.775 15 600262 0.5922 600006 0.640 16 600609 0.5893 887 0.636 17 600372 0.5894 625 0.632 18 927 0.5845 600501 0.629 19 600104 0.5806 600805 0.622 20 600166 0.5777 6
31、00373 0.607 21 600218 0.5768 600213 0.606 22 600715 0.5759 800 0.605 23 600761 0.57310 957 0.605 24 600418 0.57111 600480 0.601 25 868 0.55612 600760 0.596 26 550 0.53913 600565 0.594 27 600686 0.53114 600375 0.592 28 880 0.529按 32 个 指 标 评 价名 次 代 码 平 均 值 名 次 代 码 平 均 值1 600066 0.658 15 600375 0.4222
32、600006 0.579 16 600480 0.4213 600218 0.509 17 600805 0.4184 600501 0.500 18 600372 0.3985 625 0.494 19 957 0.3946 600373 0.489 20 600565 0.3927 887 0.480 21 600262 0.3858 550 0.470 22 927 0.3799 600213 0.445 23 600715 0.36810 600761 0.440 24 600166 0.36411 800 0.438 25 600418 0.35812 600104 0.437 26
33、 868 0.30613 600760 0.436 27 880 0.27914 600609 0.426 28 600686 0.2660.20.40.60.81 3 5 7 9 11 13 15 17 19 21 23 25 27 股 票评 价 值12个 指 标32个 指 标Fig. 2 28 只 股 票 指 标 归 一 化 平 均 值以 上 对 比 说 明 , 筛 选 出 的 12 个 指 标 基 本 涵盖了原 32 个指标的信息,真正体现了指标构建的全面性和代表性原则,说明基于聚类和主成分分析的上市公司业绩评价指标的选择方法是合理、有效的。这样,我们就可以根据这 12 个少数指标对上市
34、公司业绩进行评价,同时还可以根据先期预测或公布的这些指标数据,预测公司未来业绩,为相关部门和人士提供决策支持。5 结 束 语上市公司财务指标多达近百项,其中较常用的也达到几十项,无论是对有关部门还是广大投资者,由于能力与精力的限制,要及时获取所需要的几十项指标并做出评价是不现实的。对此,本文提出了综合运用 K 均值聚类分析和主成分分析对上市公司众多业绩指标进行先分类再筛选的指标确定方法。以车类板块 28 家上市公司 32 个财务指标连续 3 年的数据为样本,首先使用 K 均值聚类方法,并根据F 均值确定适宜的分类数,然后对含有指标较多的类运用主成分分析进一步筛选指标,最终筛选出 12 个指标为
35、上市公司业绩评价指标。为了验证本文方法的合理有效性,将 12 个和 32 个指标所得出的指标归一化平均值进行比较,结果表明筛选的 12 个指标具有很好的全面性和代表性。参 考 文 献 1 Dong feng-gu. Comprehensive evaluation of listed companiesproject design and application research(in Chinese)M.Shanghai: Shanghai university of finance and economics publisher2 State resource committee stat
36、istics evaluation bureau of state department .Enterprise performance evaluate standard value in 2005(in Chinese)MBeijing: economy and science publisher,2006.5-123 Zeng wei. Model design and application of listed companies performance comprehension evaluation(in Chinese)J.Economy research of amount e
37、conomic technique.2002(2).95-984 Kiri Wagstaff, and Claire Cardie. constrained K-means clustering with background knowledge.C. Proceedings of the eighteenth international conference on machine learning. 2001. 577-584.5 Siddheswar Ray ,and Rose H.Turi.Determination of number of clusters in K-means cl
38、ustering and application in color image segmentation C.ICAPRDT99,Calcutta,India.1999.12.27-296 Qin Shoukang. Valuation function models if principal components and a method for selecting optimum from evaluation schemes C . Beijing: Final Program,The 15th Triennial Conference of IFORS99.1999.131.7 Bin
39、g Jiang,and Husong Ding. The Evaluation on business performance of companion vehicle trade in ChinaC.The proceedings of The Fifth Wuhan International Conference on E-Busines,2006/05:1948-1952.8 Gerardo BD, Lee JW,and Choi YS. The K-Means clustering architecture in the multi-stage data mining process
40、. Computational science and its applications - ICCSA 2005, PT 2 : 71-81, 20059 Tong qi-hui.The application of primary element analyzing methods in the index synthetic evaluation(in Chinese)J. Journal of beijing institute of technology.2002(1).1510 Zhang zhe, Li jun,Wang huaiqing, and Wang shuozhong. Study of principal component analysis on multi-dimension stock data(in Chinese)J.Chinese journal of scientific instrument.2005(s2).237作 者 简 介 : 江 兵 , 女 , 48, 安 徽 桐 城 人 , 博 士 ,教 授 。 研 究 方 向 : 统 计 与 决 策 、 综 合 评 价 。通 信 地 址 : 合 肥 工 业 大 学 管 理 学 院 ,邮 编 : 230009。 电 话 : 0551-4659233,Email: bing-