ImageVerifierCode 换一换
格式:DOC , 页数:50 ,大小:1.66MB ,
资源ID:2932826      下载积分:20 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-2932826.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(毕业论文 聚类分析方法平均收入水平分类中的应用.doc)为本站会员(tangtianxu1)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

毕业论文 聚类分析方法平均收入水平分类中的应用.doc

1、 学科分类号 110 黑龙江科技大学本科学生毕业论文题 目 聚类分析方法在全国各省农民 平均收入水平分类中的应用 Cluster Analysis in the Provinces Average Income Level of Farmers Classification 姓 名 * 学 号 2011 院 (系) 理 学 院 专 业 、 年 级 数 学 与 应 用 数 学 指 导 教 师 * 2015 年 6 月 12 日I摘 要“社 会 主 义 新 农 村 建 设 ”是 我 国 目 前 社 会 主 义 建 设 的 一 项 重 要 内 容 , 增加 农 民 收 入 、 提 高 农 村 地 区

2、 人 民 生 活 水 平 也 是 我 们 国 家 的 当 务 之 急 。 研 究 农民 平 均 收 入 水 平 可 以 有 效 的 减 弱 城 乡 二 元 结 构 , 缩 小 城 乡 差 距 , 为 努 力 建 设城 乡 一 体 化 体 制 建 设 提 供 科 学 的 方 法 。 利 用 科 学 的 方 法 分 析 和 指 导 “新 农 村 ”建 设 是 我 们 科 技 人 员 面 临 的 一 项 神 圣 使 命 。本 文 主 要 简 述 了 中 国 农 村 的 现 状 , 并 应 用 系 统 聚 类 分 析 方 法 和 模 糊 聚 类分 析 方 法 对 全 国 农 民 平 均 收 入 水 平

3、 进 行 分 类 , 介 绍 了 系 统 聚 类 和 模 糊 聚 类 的原 理 和 方 法 , 并 比 较 了 两 种 方 法 在 这 个 课 题 中 的 优 势 与 劣 势 , 系 统 聚 类 法 运用 简 单 , 结 果 比 较 明 了 , 但 是 运 用 不 灵 活 , 模 糊 聚 类 法 运 用 灵 活 , 可 以 控 制分 类 的 粗 细 程 度 , 但 操 作 复 杂 。 通 过 本 文 聚 类 显 示 , 将 全 国 农 民 平 均 收 入 水平 分 为 5 类 比 较 合 适 , 其 中 江 西 、 湖 北 、 河 北 、 吉 林 、 黑 龙 江 、 河 南 、 湖 南 、内

4、蒙 古 、 海 南 、 安 徽 、 四 川 、 重 庆 为 一 类 , 辽 宁 、 山 东 、 福 建 、 广 东 为 一 类 ,广 西 、 宁 夏 、 新 疆 、 山 西 、 贵 州 、 甘 肃 、 云 南 、 青 海 、 西 藏 、 陕 西 为 一 类 ,北 京 、 上 海 为 一 类 , 天 津 、 浙 江 、 江 苏 为 一 类 。通 过 聚 类 结 果 , 了 解 了 全 国 农 民 平 均 收 入 的 状 况 , 具 体 分 析 各 省 的 经 济状 况 , 制 定 相 应 的 策 略 , 减 小 这 种 经 济 水 平 的 不 平 衡 , 抑 制 两 极 分 化 程 度 。关 键

5、 词 农 民 平 均 收 入 系 统 聚 类 模 糊 聚 类IIAbstract“Building a new socialist countryside“ is currently one of Chinas socialist construction important content, increase their income and improve the living standards of people in rural areas is a priority in our country. Study on the average income level of farme

6、rs can effectively weaken the urban-rural dual structure, narrowing the gap between urban and rural areas, provide scientific institution-building efforts to build urban-rural integration method. Use scientific methods to analyze and guide the “new countryside“ construction is a sacred mission faced

7、 by our science and technology.This paper outlines the current situation in rural China, and the application system cluster analysis and fuzzy clustering analysis of the national farmers average income level classification system introduced clustering and fuzzy clustering theory and methods, and com

8、pare the two ways in this issue of the strengths and weaknesses of the system cluster Method is simple, relatively clear, but the use is not flexible, flexible use of fuzzy clustering method, you can control the thickness of the degree of classification, but complicated to operate. Through this clus

9、ter shows that the national average income level of farmers into five categories is appropriate, where Jiangxi, Hubei, Hebei, Jilin, Heilongjiang, Henan, Hunan, Inner Mongolia, Hainan, Anhui, Sichuan, Chongqing, as a class, Liaoning, Shandong Fujian, Guangdong, as a class, Guangxi, Ningxia, Xinjiang

10、, Shanxi, Guizhou, Gansu, Yunnan, Qinghai, Tibet, Shaanxi, as a class, Beijing, Shanghai as a class, Tianjin, Zhejiang, Jiangsu, as a class.By clustering results, to understand the situation of the national farmers average income, detailed analysis of the economic situation in the provinces, develop

11、 appropriate strategies to reduce this level of economic imbalances, suppress polarization degree.Keywords Average income residents Cluster analysis Fuzzy ClusteringIII目 录摘 要 IAbstract .II第 1 章 绪 论 .11.1 论文背景和意义 .11.2 国内外研究状况 .21.3 数据来源 .31.4 本文的主要工作 .4第二章 学术回顾 .52.1 聚类分析 .52.1.1 聚类分析概念 52.1.2 聚类分析方

12、法原理 52.2 相似度的测量 .52.2.1. 定义距离 52.2.2.常用距离 62.2.3 距离选择原则 72.2.4 变量相似性的度量 72.3 系统聚类法 .92.3.1 系统聚类的基本思想 92.3.2 系统聚类法步骤: 132.4 模糊聚类分析法 .13第三章 农民平均收入的聚类算法分析 .213.1 行业数据统计 .21IV3.2 系统聚类法在农民平均收入水平的应用 .223.2.1 系统聚类法分析步骤 233.2.2 系统聚类法分析结果 283.3 模糊聚类法在农民平均收入水平的应用 .283.3.1 模糊聚类发的分析步骤 283.3.2 模糊聚类法分析结果 30结论 .32

13、致谢 .34参考文献 .35VContentsAbstract.IAbstract .IIChapter 1 Introduction.11.1 Paper background and significance 11.2 Domestic and foreign research status .21.3 Data sources .31.4 The main work of this article .4Chapter II Learned Review52.1 Cluster analysis 52.1.1 Conceptual Clustering Analysis52.1.2 Clu

14、ster analysis methods and principles52.2 Similarity measure .52.2.1 Define the distance52.2.2 Commonly used distance62.2.3 From the selection principle 72.2.4 Variable measure of similarity72.3 System clustering method 92.3.1 The basic idea of Cluster Analysis 92.3.2 Step Cluster Analysis132.4 Fuzzy

15、 clustering analysis 13Chapter III Clustering analysis of the average income of farmers .213.1 Industry Statistics.213.2 Application of system clustering method in farmers average income levelVI.223.2.1 Hierarchical cluster analysis step233.2.2 Hierarchical cluster analysis results283.3 Application

16、of fuzzy clustering method in farmers average income levels283.3.1 Fuzzy clustering analysis step hair283.3.2 Fuzzy clustering analysis results30Conclusions.32Acknowledgements.34References.351第 1 章 绪 论1.1 论文背景和意义自 改 革 开 放 以 来 , 我 国 农 村 经 济 一 直 保 持 着 平 稳 较 快 发 展 。 但 是 , 与 此同 时 , 也 出 现 了 一 些 新 的 问 题 。

17、 发 展 中 的 不 平 衡 、 不 协 调 、 不 可 持 续 问 题 逐渐 突 出 , 城 乡 发 展 差 距 和 居 民 收 入 分 配 差 距 越 来 越 明 显 , 全 国 各 个 地 区 不 平衡 及 居 民 收 入 分 配 差 距 较 大 是 人 民 群 众 比 较 关 心 的 问 题 。 农 民 增 收 关 乎 社 会的 稳 定 和 长 治 久 安 。 在 农 民 收 入 高 速 增 长 时 期 , 尽 管 农 村 同 样 存 在 一 些 矛 盾和 问 题 , 但 是 比 较 容 易 得 到 弥 合 和 解 决 。 但 在 收 入 增 加 缓 慢 甚 至 下 降 时 期 ,由

18、于 收 入 预 期 不 好 , 收 入 差 距 拉 大 , 往 往 容 易 导 致 一 些 地 方 干 群 关 系 紧 张 ,社 会 治 安 下 降 等 等 事 件 的 上 升 。 因 此 农 民 增 收 不 仅 是 个 经 济 问 题 , 而 且 是 个社 会 政 治 问 题 , 增 加 农 民 收 入 意 义 重 大 。目 前 理 论 界 广 泛 采 用 的 衡 量 收 入 差 距 的 评 价 主 要 有 基 尼 系 数 、 泰 尔 指 数 、人 口 收 入 份 额 度 量 指 标 三 大 类 。 基 尼 系 数 由 于 给 出 了 反 映 居 民 之 间 贫 富 差 异程 度 的 数 量

19、 界 线 , 可 以 较 客 观 、 直 观 地 反 映 和 监 测 居 民 之 间 的 贫 富 差 距 , 预报 、 预 警 和 防 止 居 民 之 间 出 现 贫 富 两 极 分 化 。 因 此 得 到 世 界 各 国 的 广 泛 认 同和 普 遍 采 用 。 但 是 没 有 显 示 出 来 在 哪 里 存 在 分 配 不 公 。 国 际 间 , 并 无 制 定 基尼 系 数 的 准 则 , 一 些 问 题 如 应 否 除 税 项 , 应 否 剔 除 公 共 援 助 受 益 者 , 应 否 剔除 非 本 地 居 民 , 或 应 否 加 入 政 府 的 福 利 , 并 没 有 一 致 性 ,

20、 以 至 没 有 比 较 的 准则 。 泰 尔 熵 指 数 和 基 尼 系 数 之 间 具 有 一 定 的 互 补 性 。 基 尼 系 数 对 中 等 收 入 水平 的 变 化 特 别 敏 感 。 泰 尔 熵 T 指 数 对 上 层 收 入 水 平 的 变 化 很 明 显 , 而 泰 尔 熵L 和 V 指 数 对 底 层 收 入 水 平 的 变 化 敏 感 。聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。它的优势是把性质相近的个体归为一类,使得同一类的个体具有高度的同质性,而不同类的个体差异很大,应用聚类分析模型分析农民平均收入水平的优点是直观,结论形式简明,可以综合利用

21、多个变量的信息对样本进行分类,分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果,所得到的结果比传统分类方法更细致、全面、合理。通过聚类分析将全国31个省市的农民平均收入状况进行分类,分为发达地区,较发达地区和不发达地区。通过这次2分类了解全国各地农民平均收入不平衡的现象,我们也应当针对各种问题认真的进行考虑,找出解决的办法,加强对较发达地区和不发达的确的经济建设,让发达地区带动不发达地区的发展,让我过各个地区的农民人均差距逐渐缩小,可以有效的减弱城乡二元结构,缩小城乡差距,为努力建设城乡一体化体制建设做出理论贡献,最终达到共同富裕。1.2 国 内 外 研 究 状 况目 前 理 论 界

22、广 泛 采 用 的 衡 量 收 入 差 距 的 评 价 主 要 有 基 尼 系 数 、 泰 尔 指 数 、人 口 收 入 份 额 度 量 指 标 三 大 类 。 基尼系数,是 20 世纪初意大利经济学家基尼,根据劳伦茨曲线所定义的判断收入分配公平程度的指标,是比例数值,在 0和 1 之间,是国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标。夏华在“泰尔指数及我国行业收入差距中的应用中”指出:泰尔指数是测量收入差距的一种指标,最大的优点是可以做群体分割分析,可将收入依据某种特性分成若干单位,从而得出造成收入差距大小的事哪一个单位。系统聚类分析法在各个行业有很大的用途。赵珊珊在基于 S

23、PSS 中系统聚类的 CPI 分析中主要研究八大类商品的价格,以 2013 年 1 月全国 31 个省市自治区居民消费价格指数为研究对象,通过用 SPSS 软件进行实例操作,其使用的简便性和信息反馈的迅捷度名副其实,从分析结果中得到了每种聚类过程的状态凝聚表、形象的冰柱图和树形图,以及得到不同聚类方法的不同结果的比照情况。在数据挖掘中有很好的应用,在数据挖掘中,系统聚类分析法的主要应用有:一是做为其他算法的预处理步骤,如可作为特征和分类算法的预处理步骤,也可将聚类结果进一步关联分析。二是作为一个独立的工具来获得数据分布的情况集中对特定簇做进一步分析。如可用在市场细分、目标顾客定位、业绩评估等方

24、面。三是完成孤立点挖掘。系统聚类法分析在客户细分中的应用:消费同一种类的商品或服务时,不同的客户有不同的消费特点,通过研究这些特点,企业可以制定出不同的营销组合,从而获取最大的消费者剩余,这就是客户细分的主要目的。常用的客户分类方法主要有三类:经验描述法,由决策者根据经验对客户进行类别划分;传统统计法,根据客户属性特征的简3单统计来划分客户类别;非传统统计方法,即基于人工智能技术的非数值方法。聚类分析法兼有后两类方法的特点,能够有效完成客户细分的过程。聚类分析在证券投资方面的研究有很大的发掘空间。笔者将聚类分析方法引入到证券投资分析中,对股票的行业因素、公司因素、收益性、成长性等基本层面进行考

25、察,建立了较为全面的综合评价指标体系,衡量样本股票的相似程度。然后通过聚类分析模型来确定投资范围和投资价值。结果表明该方法能帮助投资者准确地了解和把握股票的总体特性,预测股票的发展潜力,并通过类的总体价格水平来预测股票价格的变动趋势,选择有利的投资时机。模糊聚类在国内和国外应用也相当广泛。兰州交通大学姚晓红姚晓红在模糊聚类方法在甘肃农业经济类型划分中的应用中,采用主成分分析的方法来确定权值,将模糊 C 均值聚类算法目标函数中的欧氏距离用加权欧氏距离来定义,从而可以体现各指标在甘肃省农业经济发展中的影响比例,使模糊聚类结果更符合甘肃省农业经济的实际情况.山东大学张小峰在基于模糊聚类算法的医学图像

26、分割技术研究中,提出了基于分层技术的图像分割技术,提高分割算法的运行效率.研究了医学图像分割的实时分割技术。针对 FCM 算法效率低下以及相关改进算法分割效果不理想的问题进行了改进。1.3 数 据 来 源2012 年 , 农 村 居 民 人 均 纯 收 入 达 到 7917 元 , 比 上 年 增 加 940 元 , 名 义增 长 13.5%, 实 际 增 长 10.7%。 农 村 居 民 人 均 纯 收 入 实 际 增 速 比 城 镇 居 民 人 均可 支 配 收 入 高 1.1 个 百 分 点 。 城 乡 居 民 收 入 之 比 连 续 三 年 下 降 , 由 2009 年 的3.33 1

27、 下 降 到 3.10 1。 农 民 的 家 庭 经 营 收 入 份 额 占 农 村 居 民 人 均 纯 收 入 的比 重 降 至 44.6%, 下 降 1.6 个 百 分 点 ; 工 资 性 收 入 增 至 43.5%, 提 高 1.1 个 百分 点 。2013 年 , 农 户 的 人 均 工 资 收 入 很 可 能 首 次 超 过 家 庭 经 营 收 入 , 而 成 为 农户 收 入 的 主 要 来 源 。 农 民 收 入 增 幅 保 持 在 7.5%以 上 , 并 有 可 能 跃 上 9000 元台 阶 。 国 家 统 计 局 局 长 马 建 堂 20 日 在 国 新 办 发 布 会 上

28、 说 , 根 据 城 乡 一 体 化 住 户调 查 , 2014 年 全 国 居 民 人 均 可 支 配 收 入 20167 元 , 比 上 年 名 义 增 长 10.1%,4扣 除 价 格 因 素 实 际 增 长 8.0%。 按 常 住 地 分 , 城 镇 居 民 人 均 可 支 配 收 入 28844元 , 比 上 年 增 长 9.0%, 扣 除 价 格 因 素 实 际 增 长 6.8%;农 村 居 民 人 均 可 支 配 收入 10489 元 , 比 上 年 增 长 11.2%, 扣 除 价 格 因 素 实 际 增 长 9.2%。 全 国 居 民 人均 可 支 配 收 入 中 位 数 1

29、7570 元 , 比 上 年 名 义 增 长 12.4%。 2014 年 全 国 居 民 收入 基 尼 系 数 为 0.469。 数 据 显 示 , 2014 年 城 乡 居 民 收 入 差 距 进 一 步 缩 小 。 全年 农 村 居 民 人 均 可 支 配 收 入 实 际 增 速 快 于 城 镇 居 民 人 均 可 支 配 收 入 2.4 个 百分 点 , 城 乡 居 民 人 均 可 支 配 收 入 倍 差 2.75, 比 上 年 缩 小 0.06。 2014 年 农 村 居民 人 均 纯 收 入 为 9892 元 , 扣 除 价 格 因 素 实 际 增 长 9.2%。 全 年 农 民 工

30、 总 量27395 万 人 , 比 上 年 增 加 501 万 人 , 增 长 1.9%, 其 中 , 本 地 农 民 工 10574 万人 , 增 长 2.8%, 外 出 农 民 工 16821 万 人 , 增 长 1.3%。 农 民 工 月 均 收 入 水 平2864 元 , 比 上 年 增 长 9.8%。1.4 本 文 的 主 要 工 作介绍聚类分析的起源与定义,聚类分析的发展过程,聚类分析的优势,聚类分析的大致分析过程。本文主要应用系统聚类方法和模糊聚类方法结合全国31 个省市农民平均收入的数据对全国 31 个省市进行分类,分类完成之后将对比两种方法的优缺点,并对全国各省市的农民收入水

31、平做全面的分析。认真分析各省市的农业的发展状况和限制因素,仔细研究是什么因素导致这些地区农民经济发展的不平衡。最后总结个方面的分析,争取找出关键因素来减缓这种发展不平衡。5第 二 章 学 术 回 顾2.1 聚 类 分 析2.1.1 聚类分析概念聚 类 分 析 ( Cluster Analysis) , 又 称 群 分 析 , 是 根 据 “物 以 类 聚 ”的 道 理 ,对 样 品 或 指 标 进 行 分 类 的 一 种 多 元 统 计 分 析 方 法 , 它 们 讨 论 的 对 象 是 大 量 的样 品 , 要 求 能 合 理 地 按 各 自 的 特 性 来 进 行 合 理 的 分 类 ,

32、没 有 任 何 模 式 可 供 参考 或 依 循 , 即 是 在 没 有 先 验 知 识 的 情 况 下 进 行 的 。 聚 类 源 于 很 多 领 域 , 包 括数 学 , 计 算 机 科 学 , 统 计 学 , 生 物 学 和 经 济 学 。 将 数 据 分 类 到 不 同 的 类 或 者簇 这 样 的 一 个 过 程 , 所 以 同 一 个 簇 中 的 对 象 有 很 大 的 相 似 性 , 而 不 同 簇 间 的对 象 有 很 大 的 相 异 性 。聚 类 分 析 法 是 根 据 研 究 对 象 特 征 对 研 究 对 象 进 行 分 类 的 一 种 多 元 统 计 分析 技 术 方

33、法 , 在 区 域 分 类 中 得 到 普 遍 运 用 。 聚 类 分 析 通 过 辨 别 事 物 在 某 些 特性 上 的 相 似 或 相 异 处 , 按 照 这 些 特 性 将 事 物 划 分 成 几 个 类 别 , 在 同 一 类 中的 事 物 具 有 高 度 的 同 构 型 , 不 同 类 间 的 事 物 具 有 高 度 的 异 质 性 。 用 聚 类 分 析法 对 甘 肃 农 村 居 民 收 入 区 域 划 分 , 可 以 将 农 民 收 入 水 平 及 相 关 因 素 相 近 的 区域 划 分 为 一 类 , 有 利 于 更 好 的 分 析 不 同 类 型 区 域 间 差 异 和

34、反 映 同 种 类 型 区 域内 情 况 。聚 类 分 析 的 内 容 非 常 丰 富 , 有 系 统 聚 类 法 、 有 序 样 品 聚 类 法 、 动 态 聚 类法 、 模 糊 聚 类 法 、 图 论 聚 类 法 、 聚 类 预 报 法 等 。 在 本 论 文 中 主 要 介 绍 系 统 聚类 法 和 -均 值 聚 类 法 。K2.2 相 似 度 的 测 量2.2.1. 定义距离设 有 n 个 样 品 , p 个 指 标 , 每 个 样 品 都 有 这 p 个 指 标 的 观 察 值 , 设 第 i个 样 品 的 第 j 个 指 标 的 观 察 值 为 , 把 n 个 样 品 看 成 是

35、P 维 空 间 的 n 个 点 ,则 两 个 样 品 间 亲 疏 程 度 可 用 P 维 空 间 的 两 点 距 离 来 度 量 。 令 表 示 样 品 与ijdix6的 距 离 。jx即 , 表 示 第 i 个 样 品 与 第 j 个 样 品121p2n12npxX ijnpXxij之 间 的 距 离 。 一 般 满 足 一 下 四 个 条 件 时 , 就 称 为 距 离 :, 对 一 切 i, j;0ijd, 等 价 于 i, j;ij, 对 一 切 i, j;ijji, 对 一 切 i, j, k;ijikjd2.2.2.常用距离(1)明 氏 距 离 Minkowski 距 离 : ;q

36、p1ijikj1d(q)x)当 q=1 时 , , 称 为 绝 对 距 离 , 称 为 绝 对 距 离 ( Block) ;pijikj1当 q=2 时 , , 称 为 欧 氏 距 离 ( Eudidem) ;2p1/ijikj1d()x)当 q= 时 , , 称 为 切 比 雪 夫 距 离 。 ij ijkpma(2)马 氏 距 离设 与 是 来 自 均 值 向 量 为 , 协 方 差 为 的 总 体 G 中 的 p 维 样 品 0则 两 个 样 品 见 的 马 氏 距 离 为)21ij(i)(j(i)(jd(xxM马 氏 距 离 又 称 为 广 义 欧 几 里 得 距 离 。 显 然 ,

37、马 氏 距 离 与 上 述 各 种 距 离 的主 要 不 同 时 它 考 虑 了 观 测 变 量 之 间 的 关 联 性 。 如 果 各 变 量 之 间 相 互 独 立 , 即7观 测 变 量 的 协 方 差 矩 阵 是 对 角 矩 阵 , 则 马 氏 距 离 就 退 化 为 用 各 个 观 测 指 标 的标 准 差 的 倒 数 作 为 加 权 数 的 加 权 欧 几 里 得 距 离 。 马 氏 距 离 还 考 虑 了 观 测 变 量之 间 的 变 异 性 , 不 再 受 各 指 标 量 纲 的 影 响 。 将 原 始 数 据 做 线 性 变 换 后 , 马 氏距 离 不 变 。 2.2.3

38、距离选择原则一 般 来 说 , 同 一 批 数 据 采 用 不 同 的 距 离 公 式 , 会 得 到 不 同 的 分 类 结 果 。产 生 不 同 结 果 的 原 因 , 主 要 是 由 于 不 同 的 距 离 公 式 的 侧 重 点 和 实 际 意 义 都 有不 同 。 因 此 , 我 们 在 进 行 聚 类 分 析 时 , 应 该 注 意 距 离 公 式 的 选 择 。 通 常 选 择距 离 公 式 应 注 意 遵 守 以 下 的 基 本 原 则 : 1) 要 考 虑 所 选 择 的 距 离 公 式 在 实 际应 用 中 有 明 确 的 意 义 。 如 欧 几 里 得 距 离 就 有 非

39、 常 明 确 的 空 间 距 离 概 念 , 马 氏距 离 有 消 除 量 纲 影 响 的 作 用 。 2) 要 综 合 考 虑 对 样 本 观 测 数 据 的 预 处 理 和 将要 采 用 聚 类 分 析 方 法 。 如 在 进 行 聚 类 分 析 之 前 已 经 对 变 量 作 了 标 准 化 处 理 ,通 常 就 可 采 用 欧 几 里 得 距 离 。 3) 要 考 虑 研 究 对 象 的 特 点 及 计 算 量 的 大 小 。样 品 间 距 离 公 式 的 选 择 是 一 个 比 较 复 杂 且 带 有 一 定 主 观 性 的 问 题 , 我 们 应 根据 研 究 对 象 的 特 点

40、不 同 作 出 具 体 分 析 。 实 际 中 , 聚 类 分 析 前 不 妨 试 探 性 的 多选 择 几 个 距 离 公 式 分 别 进 行 聚 类 , 然 后 对 聚 类 分 析 的 结 果 进 行 对 比 分 析 , 以确 定 最 适 合 的 距 离 测 度 方 法 。2.2.4 变量相似性的度量多 元 数 据 中 的 变 量 表 现 形 式 为 向 量 形 式 , 在 几 何 上 可 用 多 维 空 间 中 的 一个 有 向 线 段 表 示 。 在 对 多 元 数 据 进 行 分 析 时 , 相 对 于 数 据 的 大 小 , 我 们 更 多地 对 变 量 的 变 化 趋 势 或 者

41、 方 向 感 兴 趣 。 因 此 , 变 量 间 的 相 似 性 , 我 们 可 以 从他 们 的 方 向 趋 同 性 或 “相 关 性 ”进 行 考 察 , 从 而 得 到 “夹 角 余 弦 法 ”和 “相关 系 数 ”两 种 度 量 方 法 。(1)夹 角 余 弦两 变 量 与 看 成 是 p 维 空 间 的 两 个 向 量 , 这 两 个 向 量 间 的 夹 角 余 弦 可 用 下式 进 行 计 算8122cospikijikikXY显 然 。sij(2)相 关 系 数相 关 系 数 经 常 用 来 度 量 变 量 间 的 相 似 性 。 变 量 与 的 相 关 系 数 定 义 为ixj

42、显 然 也 有 。1ijr无 论 是 夹 角 余 弦 还 是 相 关 系 数 , 他 们 的 绝 对 值 都 小 于 1, 作 为 变 量 近 相似 新 的 度 量 工 具 , 我 们 把 它 统 计 为 , 当 时 , 说 明 变 量 与 完 全 相ijcijixj似 ; 当 趋 近 于 1 的 时 , 说 明 与 非 常 密 切 ; 当 时 , 说 明 与ijcixj 0ijci完 全 不 一 样 ; 当 趋 近 于 0 的 时 , 说 明 与 差 别 很 大 ; 据 此 , 我 们 把 比jxijcixj较 相 似 的 变 量 聚 为 一 类 , 把 不 太 相 似 的 变 量 归 到

43、不 同 的 类 内 。在 实 际 聚 类 过 程 中 , 为 了 计 算 方 便 , 我 们 把 变 量 间 相 似 性 的 度 量 公 式 作一 个 变 换 为1ijijdc或 者22ijij用 表 示 变 量 见 的 远 近 距 离 , 小 则 与 先 聚 成 一 类 , 这 比 较 符 合 人ijdijdixj们 的 一 般 思 维 习 惯 。2.3 系 统 聚 类 法2.3.1 系统聚类的基本思想9系 统 聚 类 的 基 本 思 想 是 : 距 离 相 近 的 样 品 ( 或 变 量 ) 先 聚 成 类 , 距 离 相远 的 后 聚 成 类 , 过 程 一 直 进 行 下 去 , 每

44、个 样 品 ( 或 变 量 ) 总 能 聚 到 合 适 的 类中 。 系 统 聚 类 过 程 是 : 假 设 总 共 有 n 个 样 品 ( 或 变 量 ) , 第 一 步 将 每 个 样 品( 或 变 量 ) 独 自 聚 成 一 类 , 共 有 n 类 ; 第 二 步 根 据 所 确 定 的 样 品 ( 或 变 量 )“距 离 ”公 式 , 把 距 离 较 近 的 两 个 样 品 ( 或 变 量 ) 聚 合 成 一 类 , 其 他 的 样 品( 或 变 量 ) 仍 各 自 聚 为 一 类 , 共 聚 成 n-1 类 ; 第 三 步 将 “距 离 ”最 近 的 两 个类 进 一 步 聚 成 一 类 , 共 聚 成 n-2 类 ; 以 上 步 骤 一 直 进 行 下 去 , 最 后 将 所有 的 样 品 ( 或 变 量 ) 聚 成 一 类 。 为 了 直 观 地 反 映 以 上 的 系 统 聚 类 过 程 , 可 以把 整 个 分 类 系 统 地 画 成 一 张 谱 系 图 。 所 以 有 时 系 统 聚 类 也 称 为 谱 系 分 析 。在 进 行 系 统 聚 类 之 前 , 我 们 首 先 要 定 义 类 与 类 之 间 的 距

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报