收藏 分享(赏)

证券交易数据的聚类分析.doc

上传人:wo7103235 文档编号:6148548 上传时间:2019-03-30 格式:DOC 页数:24 大小:677KB
下载 相关 举报
证券交易数据的聚类分析.doc_第1页
第1页 / 共24页
证券交易数据的聚类分析.doc_第2页
第2页 / 共24页
证券交易数据的聚类分析.doc_第3页
第3页 / 共24页
证券交易数据的聚类分析.doc_第4页
第4页 / 共24页
证券交易数据的聚类分析.doc_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、本科毕业论文(科研训练、毕业设计)题 目:证券交易数据的聚类分析姓 名:学 院:信息科学与技术学院系:自动化系专 业:自动化专业年 级: 学 号: 指导教师(校内): 职称: 指导教师(校外): 职称:年 月 日证券交易数据的聚类分析证券交易数据的聚类分析摘 要 本文利用股票交易历史数据,运用直接匹配的方法对中国 A 股市场的股票进行短期走势聚类分析。本文分多组进行多次匹配实验,以寻求最优的历史数据匹配时间长度。此外,本文进行了多组测试实验用以测试分类效果,并提出同簇遗传率作为衡量指标。实验结果表明,对于短期历史交易数据匹配而言,匹配条件数越多,效果越好。关键词 数据挖掘 匹配 历史数据 同簇

2、遗传率证券交易数据的聚类分析Cluster Analysis of Stock TransactionsAbstract Utilizing historical data on stock transactions,this paper try to do a cluster analysis about the short-term trend of stocks on Chinese stock market,by direct matching method.In order to calculate the optimal cycle of historical data to ma

3、tch,this paper repeat groups of experiments.In addition,we also conduct experiments to test the classification effect,and propose a measuresame-cluster heritability at the same time.Experimental results show that,for the short-term historical data matching,the matching condition number,the better.Ke

4、y Words data mining match historical data same-cluster heritability证券交易数据的聚类分析目 录引言 1第一章 背景知识 .21.1 数据挖掘 .21.2 聚类分析 .31.3 股票走势技术分析指标 3第二章 实验设计 .52.1 实验问题提出背景 .52.2 数据来源 .62.3 实验方案 .7第三章 实验结果与分析 .10结论 .18致谢语 .19参考文献: .20证券交易数据的聚类分析1引言当前,我国经济高速发展,证券市场也伴随着国民经济的蓬勃发展蒸蒸日上,在我国经济建设中扮演着不可或缺的角色。在证券市场中,每天都有大量的

5、交易数据产生,这些数据蕴藏着许多重要的信息。若能挖掘这些历史数据,发现其变化规律,从而制定相应策略,则能减少投资风险,获得更高的收益。如今,应用数据挖掘等各类技术对股票走势进行预测的研究众多,绝大部分研究工作都是利用各种模型与算法预测大盘、板块或者个股未来的走势。实际投资中,经常出现某些股票具有相似的走势。这些走势相似的股票,可能有相同的题材概念或其他隐藏着未被发现的某些内在联系。随着证券市场的发展,上市公司的数量也在不断增长,截止 2014 年 03 月 14 日,中国沪深两市 A 股总数已达 2516 支,采用手工去寻找这些走势相似的股票是不现实的。因此,如何运用计算机技术自动发现走势相似

6、的股票,为投资者提供决策参考,已成为一个很有实际价值的工作。本文就是围绕这个主题展开的,我们采用直接匹配方法进行聚类分析去发现走势相似的股票簇,提出同簇遗传率度量这些股票簇在未来仍保持相似走势的概率大小。实验结果显示,我们的方法是有效的,能自动发现走势相似且具有较好同簇遗传率的股票簇。本文总共分为三章,具体的结构安排如下:第一章是背景知识的介绍,首先介绍了数据挖掘的概念和方法,其次介绍了聚类分析的基本概念,在本章的末尾还介绍了本文所要用到的部分股票走势技术分析相关知识;第二章是实验设计部分,分别对实验问题提出的背景、实验数据来源和实验具体的方案与实施进行了详细介绍;第三章是实验结果与分析,本章

7、对实验结果进行测试并利用图表进行分析。文章最后是结论和展望部分。证券交易数据的聚类分析2第一章 背景知识1.1 数据挖掘数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 1。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在信息的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。数据挖掘的分析方法主要包括分类分析、回归分析、聚类分析、相关性分析和关联规则分析等

8、。数据挖掘过程包括很多处理阶段,其一般流程主要有以下四个阶段:(1) 明确目标:确定数据挖掘的目标是十分重要的一步,挖掘的最后结果是不可预测但探索的问题应是有预见的;(2) 数据准备:数据准备包含数据选取和数据预处理两个部分。数据选取的目的是根据用户的需要从原始数据库中抽取部分数据 2;数据预处理主要是进行噪声消除、去除重复数据、进行数据类型转换等等;(3) 数据挖掘:这个阶段包括确定挖掘的目标,根据任务要求选择合适的算法并执行算法进行挖掘的过程;(4) 结果解释和评价:对挖掘结果进行评价,若知识不满足用户需求,则重复上述过程调整算法重新挖掘。对于符合需求的结果,还需进行处理、分析,对挖掘的知

9、识进行解释,以一种用户易于理解的方式进行呈现供用户所用。数据挖掘过程的步骤如图 1 所示:证券交易数据的聚类分析3图 1 数据挖掘过程的步骤 3-41.2 聚类分析聚类(Clustering)分析是数据挖掘技术的重要组成部分,它是根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程 5。与数据挖掘的另一个分析方法分类分析不同,进行聚类前并不知道将要划分成几个组和什么样的组,它不依赖于预先定义好的类,不需要训练集。聚类要求在不同群组的数据之间差距越大、越明显越好,而每个群组内部的数据之间要尽量相似,差距越小越好 6。目前聚类算法众多,主要分为分裂方法、层

10、次方法、基于密度的方法、基于网格的方法、基于模型的方法几个大类 7,包含 K-MEANS 算法(K 平均) 、BIRCH 算法(平衡迭代规则和聚类)等常用算法 8。1.3 股票走势技术分析指标股票走势技术分析是以股票价格作为主要研究对象,以预测股价波动趋势为目的,从股价变化的历史图表入手,对股票市场波动规律进行分析的方法总和 9。通常,对股票进行技术分析是通过一些指标表示出来的,走势分析的基本指标一般包括:(1) 开盘价:该股票在给定周期内的交易活动中第一笔交易的成交单价。(2) 收盘价:该股票在给定周期内的交易活动结束前最后一笔交易的成交单价。(3) 最高价:该股票在给定周期内的交易活动中产

11、生的最高单价。(4) 最低价:该股票在给定周期内的交易活动中产生的最低单价。(5)K 线:K 线是根据该股票的开盘价、收盘价、最高价、最低价绘制出的。证券交易数据的聚类分析4通常,根据计算周期,k 线可分为日 K 线、周 K 线、月 K 线以及年 K 线。当收盘价高于开盘价时,开盘价在下方收盘价在上方,两者之间的长方柱用红色或者空心表示,此为阳线;当收盘价低于开盘价时,则开盘价在上方收盘价在下方,两者之间的长方柱用黑色或者实心表示,此为阴线。在阴阳线的上影线最高点为最高价,下影线的最低点为最低价,如图 2 所示:最高价收盘价开盘价最低价阳线最高价开盘价收盘价最低价阴线图 2 K 线示例图(6)

12、 涨跌幅:该股票本周期的收盘价和前一周期收盘价之差与前一周期收盘价的百分比,用来对涨跌情况进行描述。(7) 振幅:该股票在给定周期内的交易活动中最高价和最低价之差的绝对值与前一周期收盘价的百分比,该指标一定程度上表示了股票的活跃程度。换手率:该股票在给定周期内市场中对其转手买卖的频率,是反映该股票流通性强弱的指标之一。(9) 成交量:该股票在给定周期内交易成交的数量,是反映该股票活跃度的重要指标。(10)移动平均线(MA ) 10:将该股票在一段周期内的价格平均值连成的曲线,显示了股价的历史波动情况。常见的指标包括MA5、MA10、MA15、MA20,分别表示该股票的 5 日均价、10 日均价

13、、15 日均价和 20 日均价。证券交易数据的聚类分析5第二章 实验设计2.1 实验问题提出背景在证券市场实际投资中,经常出现某些股票具有相似的走势。这些走势相似的股票,可能有相同的题材概念或其他隐藏着未被发现的某些内在联系。通过查阅历史资料,不难发现走势相似的案例。例如,在 2007 年第三季度,沙隆达 A(000553)和汇鸿股份(600981)两只股票的走势极其相似,本文将 2007年第三季度两只股票的涨跌幅数据通过 MATLAB 绘制出对比图,如图 3 所示。从图中可以看出,在第三季度将近七十个交易日里,两只股票走势曲线近乎可以重叠。从题材上看,通过东方财富股吧 11我们了解到,沙隆达

14、集团是化工集团而汇鸿股份是外贸公司其主要的业务并没有化工相关行业,看不出任何端倪。在后期的数据分析中发现,这段时间内两只股票买卖金额排名前五的席位上常出现相同的券商投资公司,这基本可以确定这两只看似毫无关联的股票走势相似是机构投资者有心栽培而非巧合。图 3 沙隆达 A、汇鸿股份走势对比图证券交易数据的聚类分析6对于上述两只股票的情况并非个例,如图 4 中恒宝股份(002104)和鲁泰A(000726)在 2007 年 10 月 08 日至 2007 年 11 月 30 日 40 个交易日的走势,这两只表面上没有任何关联的股票同样出现了走势十分相似的情况,通过技术分析也证实,两只股票存在相同机构

15、投资者的大笔交易。两个股票交易历史上的实例即本文欲通过实验解决的问题:本实验希望通过对沪深股市所有 A 股在一段时间内的走势进行聚类分析,得出在该时间段内走势相同的股票簇,从而获取同一股票簇中领头的个股,根据其走势,对该簇中其他股票进行及时交易。图 4 恒宝股份、鲁泰 A 走势对比图2.2 数据来源本实验的数据来自于 Wind 资讯金融终端 12和新浪财经网 13。本实验从Wind 资讯金融终端下载了从 2013 年 1 月至 2014 年 3 月所有股票交易日沪深 A股的各项基本数据,包括前收盘价、开盘价、最高价、最低价、收盘价、均价、涨跌幅等等,数据包含前复权和不复权类型。本实验从新浪财经

16、网下载同时段沪深 300 指数的全部交易日涨跌幅数据。数据以 Excel 表格的形式进行存储,数据模板如图 5 所示。证券交易数据的聚类分析7图 5 实验原始数据模板Wind 资讯金融终端提供了最齐全的中国金融市场数据与信息,在国内市场,Wind 资讯的客户包括超过 90%的中国证券公司、基金管理公司、保险公司、银行和投资公司等金融企业;在国际市场,已经被中国证监会批准的合格境外机构投资者(QFII)中 75%的机构是 Wind 资讯的客户。因此,从 Wind 资讯金融终端下载的股票历史数据,保证了实验数据的准确性和可靠性。2.3 实验方案2.3.1 特征选取对于聚类而言,选取合适的特征是十分

17、重要的。合适的特征可以简化运算量,提高实验准确性。本实验的目的是对在一段时间内走势相同的股票进行聚类,而最直接反映股票走势情况的就是其每日的涨跌幅。从涨跌幅上看,个股的走势可以被简化为三种情况,即涨、跌和平。在问题研究的初期,我们将走势相同这一问题转化为涨跌相同。根据股票用正值来表示涨,负值表示跌,零值表示平或者停牌的特点,我们选取 1,-1,0 三个数作为实验特征, 1 表示该股票走势为涨,-1 表示跌,0 表示平或者停牌,用此规则对原始数据进行处理,每只股票可以得到一串该段时间内仅含-1,1,0 的有序序列。2.3.2 算法选择本实验前期考虑了多种常用聚类算法,如 K-MEANS 聚类等。

18、但我们发现本证券交易数据的聚类分析8实验与常见聚类问题有所不同。第一,本实验的特征较为简单,是仅由-1,1 ,0 三个数组成的有序数列,是确切可以知的值;第二,本实验的数据量并不像常见聚类问题那么大,目前的股票数为 2516 只,股票数量不会出现急剧增长的情况,本实验研究的是短期内的股票走势,因此整体数据量大大小于常见聚类问题。本本基于以上两个特点的考虑,认为实验可以采取直接匹配的方法,两序列匹配的条件为两序列完全相同。该方法的优点在于,匹配后被聚成同一簇的股票走势是严格相同的,不存在误差。该方法适用于数据量较小,特征简单,准确度要求较高的实验。2.3.3 实验方案对于股票而言,可以用来表示一

19、只股票走势的数据包含日走势、周走势、月走势。由于本实验考虑的是股票的短期走势,因此本文采用以日走势为主,周走势为辅的策略进行实验,采取这一策略的主要原因是因为在特征选取时没有将涨跌的幅度反应到特征中。考虑到实验中可能出现两只股票一周五个交易日的日涨跌都相同,但涨跌幅度相差很大,这样的两只股票我们不能认为它们走势相近,加入周走势作为辅助可以在一定程度上排除这种情况的出现,即对股票的走势在涨跌的幅度上进行了限制。在上文中我们提到,本实验的目的是寻找在短期内走势相同的股票,而短期指的是几天呢?把短期量化成一个确切的数值应该取多大呢?这是本实验要考虑的问题。如果时间段取太短,走势相同存在的偶然性太高,

20、而时间段取太长,又会带入部分不具有时效性的信息。因此本文将进行多组实验,以确定周期应取多长后期测试效果最好。同时,本文也将进行多次重复实验,以提高实验结果的可信度。本文将进行以下五组实验:第一组实验: 采用沪深市场所有股票单周走势和该周每日走势进行聚类。第二组实验: 采用沪深市场所有股票连续两周的周走势和两周中后一周的每日走势进行聚类。第三组实验: 采用沪深市场所有股票连续三周的周走势和三周中最后一周的每日走势进行聚类。第四组实验: 采用沪深市场所有股票连续两周的周走势和两周的每日走势证券交易数据的聚类分析9进行聚类。第五组实验: 采用沪深市场所有股票连续三周的周走势和三周的每日走势进行聚类。

21、我们利用表 1 直观的反映五组实验,如下所示:表 1 五组实验所需数据数据组别第 t-2 周周走势第 t-2 周每日走势第 t-1 周周走势第 t-1 周每日走势第 t 周周走势第 t 周每日走势第一组 第二组 第三组 第四组 第五组 证券交易数据的聚类分析10第三章 实验结果与分析对于上述实验方案,本文在基于 MALAB R2012b 的运行环境下进行了多次实验。实验原始数据及最终结果存储于 Microsoft Office Excel 2013。我们以三周为一次实验周期,分别为第 t-3+n 周、第 t-2+n 周、第 t-1+n 周,其中n=1,2,10,一共进行十次重复实验,实验数据周

22、期为 2013 年 10 月 14 日至2014 年 02 月 28 日。表 2 为进行一次实验的结果,其实验数据周期是 2014 年02 月 10 日至 2014 年 02 月 28 日;表 3 为进行十次实验后取平均值的结果。其中匹配后簇数指各组实验通过直接匹配数据产生的走势相同的股票簇数量;最大簇和最小簇的大小分别指匹配后产生的最大簇和最小簇的成员数;匹配后平均簇数、平均最大簇大小、平均最小簇大小即 10 次匹配后统计结果的算术平均值。表 2 一次匹配实验后分簇情况组别 匹配后簇数 最大簇大小 最小簇大小第一组实验 52 420 2第二组实验 90 290 2第三组实验 124 270

23、2第四组实验 291 76 2第五组实验 211 30 2表 3 十次匹配实验后分簇情况组别 匹配后平均簇数 平均最大簇大小 平均最小簇大小第一组实验 51 325 2第二组实验 90 232 2第三组实验 130 192 2第四组实验 266 65 2第五组实验 191 42 2从表 3 和表 4 可以看出,在五组实验中,进行一次实验和进行十次实验得出的结果相符。其中第一组实验聚类后产生的簇最少,最大簇大小明显大于其他组。根据实验设定的条件,理论上从第一组实验到第五组实验匹配后平均簇数应依次递增,平均最大簇大小依次递减。从实验结果发现,平均最大簇大小的变化规律符合理论值,而匹配后平均簇数在第

24、五组实验中跟理论预期不符。经过分析,本文认为第五组数据匹配后簇数没有如理论预期大于第四簇的原因证券交易数据的聚类分析11主要是,当匹配的条件数增大到一定值时,匹配序列相等的概率降低。图 6 为本实验中对一周日走势进行匹配的结果统计,实验周期为 2013 年 10 月 28 日至2013 年 11 月 01 日,其中第一行序列-1,-1,1,-1,1为当周沪深 300 指数走势。从此数据可以看出,成员较多的簇其走势与大盘的走势相同或者相近。图 6 匹配产生分组情况及组成员统计本实验得出分簇后的最终目的是从中选择若干只股票进行交易,因此我们对分簇结果进行测试。测试方式即跟踪被分在同一簇的股票在未来

25、一周的走势是否继续相似。由于实际中原先走势相似的一个股票簇,在未来一般会出现分化,即很难保证该股票簇在未来的走势仍一致,为了衡量该股票簇在未来走势的相似性,我们提出一个同簇遗传率指标进行度量。某股票簇的同簇遗传率定义为: =100%其中 N 为该股票簇第 t 周的成员数, M 为 t+1 周时该股票簇聚类后最大类的成员数。Hrate 越大,表明该簇有更多的股票在未来一周仍保持相似的走势,反之就越少。显然 .我们以实验数据周期为 2014 年 02 月 10 日1/1至 2014 年 02 月 28 日的一次实验为例,用接下去一周即 2014 年 03 月 03 日至证券交易数据的聚类分析122

26、014 年 03 月 07 日五天的走势,对五组实验结果分别进行测试。测试结果如表4 所示;表 4 实验结果测试统计组别 最大同簇遗传率最大同簇遗传率所在簇原始簇的大小最大同簇遗传率所在簇的大小原始最大簇的同簇遗传率原始最小簇的同簇遗传率平均同簇遗传率第一组 60.00% 5 3 13.57% 7.76% 20.63%第二组 66.67% 3 2 11.03% 8.45% 21.58%第三组 66.67% 3 2 11.85% 7.69% 24.56%第四组 100% 2 2 11.84% 8.45% 40.75%第五组 100% 2 2 20.00% 15.38% 53.75%平均值 78.

27、68% 13.66% 9.55% 32.25%表 4 中最大同簇遗传率为测试后各类中同簇遗传率的最大值;最大同簇遗传率所在簇原始簇的大小为产生最大同簇遗传率的类聚类前所在原始簇的簇成员数;最大同簇遗传率所在簇的大小为产生最大同簇遗传率的类的成员数;原始最大簇和最小簇的同簇遗传率分别为原始成员数最多和最少的簇进行测试后的同簇遗传率;平均同簇遗传率即对测试后所有同簇遗传率大于 的类其同1/簇遗传率求取算术平均值。我们从每一组实验中选取遗传率最接近平均同簇遗传率的类,将其从匹配实验起始日期至测试实验结束后五天的历史数据作为一个周期,引入涨跌幅绘制成走势图,观察同类股票之间的相似性。本此实验的数据周期

28、为 2014 年 02月 10 日至 2014 年 03 月 14 日。第一组实验:最接近平均同簇遗传率的类同簇遗传率为 20.00%,原始簇成员个数为 10只,遗传后簇成员个数为 2 只,这两只股票分别为卧龙地产(600173)和海岛建设(600515 ) ,走势比较图如图 7:证券交易数据的聚类分析13图 7 卧龙地产、海岛建设 25 天走势比较图第二组实验:最接近平均同簇遗传率的类同簇遗传率为 21.43%,原始簇成员个数为 14只,遗传后簇成员个数为 3 只。这三只股票分别为七匹狼(002029) 、金固股份(002488)和中电广通(600764 ) ,走势比较图如图 8:图 8 七

29、匹狼、金固股份、中电广通 25 天走势比较图证券交易数据的聚类分析14第三组实验:最接近平均同簇遗传率的类同簇遗传率为 25.00%,原始簇成员个数为 6 只,遗传后簇成员个数为 4 只。这三只股票分别为广百股份(002187) 、荣华实业(600311) 、中金黄金( 600489)和山东黄金(600547 ) ,走势比较图如图 9:图 9 广百公司、荣华实业、中金黄金、山东黄金 25 天走势比较图第四组实验:最接近平均同簇遗传率的类同簇遗传率为 40.00%,原始簇成员个数为 5 只,遗传后簇成员个数为 2 只。由于在这组实验中,同簇遗传率为 40.00%的有多个类,我们随机取其中的两类进

30、行比较。分别是浦发银行(600000)和兴业银行(601166)以及海联讯(300277 )和禾嘉股份(600093 ) ,走势比较图分别如图 10、图 11:证券交易数据的聚类分析15图 10 浦发银行、兴业银行 25 天走势比较图图 11 海联讯、禾嘉股份 25 天走势比较图第五组实验:最接近平均同簇遗传率的类同簇遗传率为 50.00%,本组实验中同簇遗传率为此数值的有多类,我们随机选取其中两类进行比较。第一类原始簇成员个数证券交易数据的聚类分析16为 4 只,遗传后簇成员个数为 2 只,分别是紫光股份(000938)和海源机械(002529) ;第二类原始簇成员个数为 6 只,遗传后簇成

31、员个数为 3 只,分别是三维通信(002115 ) 、哈尔斯(002615 )和太空板业(300344) 。走势比较图分别如图 12、图 13:图 12 紫光股份、海源机械 25 天走势比较图图 13 三维通信、哈尔斯、太空板业 25 天走势比较图证券交易数据的聚类分析17从表 4 的对比数据可以看出,五组实验中,随着匹配数据量的增大,平均同簇遗传率也呈现明显的递增趋势。其中第五组实验的平均同簇遗传率更是超过了 50%。从表中数据证明,在我们选取的实验周期内,采取第五组实验的策略进行聚类,后期测试效果最好。我们也注意到,同簇遗传率较高的类一般出现在簇成员较少的簇中,成员数较多的簇其同簇遗传率远

32、低于平均水平。之所以会出现这一现象,原因可能是因为,成员数较多的簇其簇成员的走势一般接近于大盘的走势,即股市中紧跟大盘走势的股票,并没有太大研究价值,而成员数较少的簇一般走势与大盘走势差异较大,有较大的可能性存在某些有价值的内在联系。因此,从实验结果上看,选择成员数较少的簇中的股票进行交易,后期走势相似的概率更高。对于从每组中抽取接近平均同簇遗传率的类,将成员引入涨跌幅进行走势图比较的结果分析,图 9、图 10、图 13 引入涨跌幅后图像的重合度仍然很高,图 11、图 12 的结果也比较理想的,而图 7、图 8 的图像重合度偏低,基本上除了涨跌相同外,涨跌的幅度相差较大。对于部分结果不理想,本

33、文认为可能的原因有以下几点:(1) 我们注意到结果不理想的图 7、图 8 分别来自第一、二组实验。第一、二组实验在进行匹配实验时的条件数要远小于其他三组实验,因此测试结果不理想可能是由于匹配实验条件数较少导致所产生的簇成员间相似性较小。(2) 本文在匹配的过程中采取日走势为主,周走势为辅的策略,本意是为了弥补没有引入涨跌幅进行聚类的影响。但是,实验结果证明,这样的弥补是微不足道而且片面的,引入涨跌幅进行聚类有利于排除一些只是涨跌相同而涨跌幅相差甚远走势大相径庭的股票,从而排除偶然性。证券交易数据的聚类分析18结论通过对股票历史交易数据进行挖掘和分析,可以帮助投资者获取更多有价值的信息,从而选择

34、更好的投资策略。本文选取历史数据中的涨跌数据作为特征,采取直接匹配的方法,通过选取不同的周期长度分多组进行实验,对短期内走势相同的股票进行聚类并比较多组实验的分类结果。本文对多组实验分别进行了后期的测试实验,提出同簇遗传率作为衡量标准,用它来评价测试实验的结果。通过具体的实验,本文得出的结论有:对走势相同的股票进行聚类,其产生簇的总数不会随着周期的变长持续增长;聚类后成员数较多的簇其走势与大盘走势相同或相近;测试结果表明匹配条件较多的产生的簇成员后期走势相似的概率较高;同时成员数较少的簇同簇遗传率明显高于成员数相对较多的簇。在实验取得一定成果的同时,本文也发现了许多不足。导致部分实验结果不理想

35、的原因主要来源于本文选取特征时只简单地将涨跌幅阈值化为三个值作特征,没有考虑涨跌的幅度大小。对于后续的研究工作,将基于本文已经进行的直接匹配所得结果的基础上,对被分在同簇的股票引入涨跌幅,采用 K 均值聚类将同簇中形态相近的股票分到一类。在进行二次聚类后,可能还会考虑使用支持向量机技术对每个聚簇进行训练,并可能采用支持向量机预测。同时,本文也将对特征的提取做进一步的改良,从根本上提高实验的准确率。证券交易数据的聚类分析19致谢语至此,伴随着毕业论文即将完工,四年的大学生活也接近尾声。回想起四年生活,有太多的感谢想说。在这里,首先我要感谢论文的指导老师罗林开教授,感谢罗老师一直以来的悉心指导。从

36、课题的选定、设计方案的执行到论文的写作,罗老师始终耐心指导,给我提出了许多宝贵的意见。在罗老师的帮助下完成毕业论文,时常让我感受到智慧碰撞的乐趣,在提高我学术水平的同时,也使我的科研的热情得到了提高。同时,罗老师精湛的专业知识、严谨的治学态度和对科研精益求精的执着给我留下了深刻印象,更成为我前进的动力和榜样。其次,要感谢厦门大学自动化系的每一位任课老师,他们用渊博的知识帮助我打开了自动化这扇神秘的大门,他们的言传身教也为我树立了一个个榜样。感谢我大学四年的班主任刘云龙老师,感谢他在学业和生活上对我的关心和帮助。感谢模式识别实验室的师兄师姐们对我的照顾和在研究上给予我的莫大帮助。最后,我还要感谢

37、生活上给予我帮助的人们。感谢我的父母陪伴我走过人生的每一步,分享我的成功与汗水,一直对我无条件的支持。感谢我的大学四年的舍友们,以及同窗好友们,与我分享喜悦分担忧愁,给予我理解和包容,鼓励我前进。你们都是我最坚实的后盾。证券交易数据的聚类分析20参考文献:1吕成哲,赵晓明,王起伟. 浅谈数据挖掘理论J. 中国西部科技( 学术),2007,02:39-42.2郑日军. 数据挖掘综述J. 科协论坛( 下半月),2008,10:82.3林香. 证券分析中数据挖掘模型的研究及应用D.厦门大学,2007. 4顾忠伟. 灰色挖掘及其在证券分析中的应用研究D.浙江大学,20035陈学进. 数据挖掘中聚类分析的研究J. 计算机技术与发展,2006,09:44-45+49.6喻彪,骆雯,赖朝安. 数据挖掘聚类算法研究J. 现代制造工程,2009,03:141-145.7汤效琴, 戴汝源. 数据挖掘中聚类分析的技术方法J. 微计算机信息, 2003, 19(1): 3-4.8孙吉贵, 刘杰, 赵连宇. 聚类算法研究J. 软件学报, 2008, 19(1): 48-61.9http:/ 基于道氏趋势理论的证券分析预报软件的研究D. 大连理工大学, 2007.11http:/ 12http:/

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报