收藏 分享(赏)

基于改进k-means算法的时间和地点识别.doc

上传人:无敌 文档编号:149238 上传时间:2018-03-22 格式:DOC 页数:7 大小:79KB
下载 相关 举报
基于改进k-means算法的时间和地点识别.doc_第1页
第1页 / 共7页
基于改进k-means算法的时间和地点识别.doc_第2页
第2页 / 共7页
基于改进k-means算法的时间和地点识别.doc_第3页
第3页 / 共7页
基于改进k-means算法的时间和地点识别.doc_第4页
第4页 / 共7页
基于改进k-means算法的时间和地点识别.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、基于改进 K-means 算法的时间和地点识别 张鹏 廖涛 安徽理工大学计算机科学与工程学院 摘 要: 事件要素识别主要包括时间要素和地点要素的识别。目前, 时间和地点要素的识别主要是利用机器学习的方法, 但是基于机器学习的方法容易受到语料稀疏性的影响。提出了基于改进 K-means 算法的时间和地点识别。该方法主要是对K-means 算法进行改进, 先利用 Canopy 算法求出聚类的 K 值, 再根据改进的算法进行聚类分析, 最后利用词性进行优化处理, 并得到实验结果。关键词: 事件要素识别; Canopy 算法; K-means 算法; 词性优化; 作者简介:张鹏 (1993) , 男,

2、 硕士研究生, 主要研究方向为 Web 文本信息处理;作者简介:廖涛 (1977) , 男, 硕士生导师, 副教授, 主要研究方向为数据挖掘、智能信息处理等。收稿日期:2017-11-15基金:安徽省高校优秀青年人才支持计划项目 (gxyq2017007) Time and Location Recognition Based on Improved K-means AlgorithmZHANG Peng LIAO Tao Department of Computer Science and Engineering, Anhui University of Science and Techno

3、logy; Abstract: Event element identification mainly includes the identification of time elements and location elements. At present, the recognition of time and place elements mainly uses the method of machine learning, but the method Based on machine learning is vulnerable to the sparseness of corpo

4、ra. Proposed time and place recognition Based on improved K-means algorithm. The method is mainly to improve the K-means algorithm. Firstly, the K value of the clustering algorithm is calculated by Canopy algorithm. Then the clustering analysis is carried out according to the improved algorithm. Fin

5、ally, part-of-speech is used to optimize the K-means algorithm and the experimental results are obtained.Keyword: Event element recognition; Canopy algorithm; K-means algorithm; Part of speech optimization; Received: 2017-11-151 概述随着互联网的蓬勃发展, 人们每天都会从互联网上接触到海量的信息, 为了能够从海量的事件信息中获得自己所关心的信息, 因此, 对事件信息的抽

6、取任务正引起人们的广泛关注。事件抽取主要包括两个方面, 即事件识别和事件要素识别。事件识别1要判断一个包含事件触发词的句子是否是现实世界中发生的事件。事件要素识别主要是把事件中的时间、地点、人物等要素识别出来。本文主要对事件时间和地点要素的识别进行研究。目前, 事件要素的识别主要采用机器学习的方法, 这种学习需要大规模人工标注的熟语料库作为训练集, 以获取事件要素的相关知识, 学习的效果依赖于语料的质量和规模2。如果语料不够充分, 往往使得识别效果不理想。因此, 本文提出了基于改进 K-means 算法的时间和地点识别。2 研究现状在国外, 2006 年, Ahn3提出把事件要素识别当做多元分

7、类问题, 采用基于分类学习的方法在 ACE 英文语料上实现事件识别和事件要素识别。Tan4等人先采用局部特征选择和正反特征融合的方法识别事件, 然后使用多层模式匹配再ACE 中文语料上识别事件要素。Lin5等人采用动态方法来处理隐式时间表达式, 用新的计分模型来确定网页的关注时间并设计了基于时间和文本相关度的时间文本检索排序方法。国内赵妍妍6等人在 Ahn 的基础上进行改进, 提出对触发词进行扩展, 并且采用多元分类模型的方法进行事件要素的识别。实验效果有明显提高。丁效等人7采用基于关键词与触发词相结合的过滤方法进行事件类型的识别, 进而采用基于最大熵分类方法对事件元素进行识别。付剑锋8根据各

8、个特征对聚类的贡献不同分配不同权值的方法对事件要素进行识别。3 时间和地点要素识别3.1 K-means 算法改进传统的 K-means 算法有很多的缺点9, 例如:对离群点的敏感度, 容易导致中心点偏移;无法确定 K 的个数。针对上面无法确定 K 的个数问题, 本文引入了Canopy 算法, 有效地解决了 K 值问题。Canopy 聚类它能够有效地降低 K-means 算法中计算点之间距离的复杂度。大致的伪代码如下:定义一个对象集合 data, 一个存放所有聚类中心的集合 canopy。其中 T1和 T2和 Canopy 算法中的两个距离阈值, 一般地 T1T2。当距离大于 T1时, 这些点

9、就不会被归入到中心所在的这个 canopy 类中, 当距离小于 T1大于T2时, 这些点会被归入到该中心所在的 canopy 中, 但是它们并不会从 data 中被移除, 也就是说, 它们将会参与到下一轮的聚类过程中, 成为新的 canopy 类的中心或者成员而当距离小于 T2的时候, 这些点就会被归入到该中心的 canopy类中, 而且会从 data 中被移除, 也就是不会参加下一次的聚类过程。3.2 识别流程本文主要分为三个步骤, 第一步:对获得的生语料进行预处理生成标注语料库, 并对标注语料库进行构造数据集。第二步:对获得的实验数据集进行一次聚类。第三步:对聚类结果进行优化处理, 并识别

10、出时间、地点要素。3.2.1 预处理本文采用 CEC (Chinese Emergency Corpus) 10语料库, 并去除其标注作为本文实验所用的生语料。CEC 语料库的规模虽然偏小, 但是对事件和事件要素的标注却很全面。在预处理过程中本文采用哈工大的语言技术平台 (Language Technology Platform, LTP) 对生语料进行预处理得到实验数据集。数据集主要由词性特征、依存句法特征和语义依存分析经过量化组成。其中词性特征主要对句子进行词性标注。依存句法分析主要是分析句子中词与词之间的依存关系, 揭示其句法结构的特点。语义依存分析主要是分析各个词之间的语义关联, 并将

11、语义关联以依存结构呈现。基于这三种特征的作用, 并且经过量化处理, 我们得到了实验数据集。3.2.2 一次聚类在聚类之前, 可以把 Canopy 算法得到的 K 值结果添加到 K-means 算法中。这样, 改进的 K-means 聚类算法的基本步骤为:输入:原始数据 (u 1, u2, , uk) , Canopy 算法得到的 K 值初始化随机数据 (x1, x2, , xn) 。u k和 xn都是向量。输出:得到聚类类别1) 根据每个聚类对象的均值 (中心对象) , 计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分, 公式为:ci表示找出距离每个初始数据最近的数据,

12、x i表示第 i 的原始资料, u j表示第j 个距离的均值。2) 重新计算每个 (有变化) 聚类的均值 (中心对象) , 公式为:ci表示找出距离每个初始数据最近的数据, x i表示第 i 的原始资料, u j表示第j 个距离的均值。3) 循环 (1) 到 (2) 直到每个聚类不再发生变化为止。经过算法不断重复计算, 最终得到 K 个聚类。经发现聚类后时间和地点要素基本被集中在一个类中。但是类中还存在大量的“杂质数据”, 影响时间和地点的识别工作, 因此我们要对这些“杂质数据”进行进一步处理。3.2.3 优化处理在突发事件文本中, 事件的时间, 地点, 对象等要素非常重要, 所以时间和地点名

13、词在文本中最为重要。事件中的其他词性, 如形容词和副词的重要性次之, 功能词或虚词如感叹词、代词和连词等, 几乎没什么作用, 可以像停用词一样被去掉。例:综合媒体报道, 当地时间 9 月 19 日, 墨西哥中部莫雷洛斯州发生 7.1 级地震, 目前已造成至少 248 人死亡。该国首都墨西哥城震感强烈, 部分街区停电, 机场一度暂停全部航班。经过 LTP 预处理之后的分词标注为:综合/v 媒体/n 报道/v 当地/nl 时间/n 9 月/nt 19 日/nt 墨西哥/ns 中部/nd 莫雷洛斯州/ns 发生/v 7.1/m 级/q 地震/n 目前/nt 已/d 造成/v 至少/d 248/m 人

14、/n 死亡/v 该国/r 首都/n 墨西哥城/ns 震感/n 强烈/a 部分/m 街区/n 停电/v 机场/n 一度/d 暂停/v 全部/m 航班/n。经过改进的 K-means 算法聚类之后, 我们利用词性特征对类中杂质数据进行去除。在示例中, 像名词 (n) 、其他名词修饰语 (b) 、数量词 (q) 和数词 (m) 都是对提时取间和地点没有用的, 但对某些词项后标注 Event 事件的名词进行保留。得到的新的分词标注为:9 月/nt 19 日/nt 墨西哥/ns 莫雷洛斯州/ns 发生/v 地震/n 目前/nt 墨西哥城/ns 停电/v。优化处理之后, 实验数据集中主要剩有时间、地点等事

15、件要素, 然后把剩下的标注词语与已知的语料库进行对比参照并进行分类。4 实验结果和分析4.1 实验准备本文实验数据采用了去除标注的 CEC 语料库, 并且分词和句法分析采用了哈工大 LTP 模块。为实现实验结果本文使用 Matlab 软件平台进行相关实验。并采用准确率 P (Precision) 、召回率 R (Recall) 和 F 值作为评价事件要素识别的标准。4.2 实验结果分析我们将本文中的算法与文献3、文献6、文献8以及传统的 K-means 算法识别事件要素进行比较。这里利用准确率、召回率和 F 值进行参考。实验结果如表 1 所示。表 1 不同算法之间的比较 下载原表 从表 2 可

16、以看出, 文献3中准确率和召回率不是太高主要原因是语料规模较小, 造成数据较为稀疏, 文献6中的召回率比文献3中明显高了一些, 但准确率不是太高, 原因主要是特征提取时不够全面, 触发词扩展不够充分。文献8中的准确率比前两个都要高, 它提出了特征加权的方式利用聚类算法进行要素识别, 根据特征的不同分配不同的权值, 最后进行聚类, 在结果上有较好的结果, 但论文中没有给出召回率, 所以对于文献8我们只比较准确率。本文在机器学习的基础上利用词性特征来对事件要素进行识别, 准确率和召回率都有所改观。5 结束语本文分析了事件要素研究的现状。针对目前研究情况, 对传统的 K-means 算法进行了适当改

17、进, 加入了 Canopy 算法, 解决了聚类 K 值的问题, 然后在聚类结果中利用词性对结果进行筛选, 最后, 再次利用聚类算法, 把时间地点识别出来。下一步研究方向是利用全监督聚类算法通过标记对象自动识别事件要素, 同时语料库的建设也是非常关键的重要一步。参考文献1付剑锋, 刘宗田, 付雪峰, 等.基于依存分析的事件识别J.计算机科学, 2009, (11) :217-219. 2刘炜, 刘菲京, 王东, 等.一种基于事件本体的文本事件要素提取方法J.中文信息学报, 2016, 30 (4) :167-175. 3Ahn D.The stages of event extractionC/

18、Proceedings of theCOLING-ACL 2006 Workshop on Annotating and ReasoningAbout Time and Events.2006:1-8. 4Tan H, Zhao T, Zheng J.Identification of Chinese Event andTheir Argument RolesC/Computer and Information Tech-nol-ogy Workshops, 2008 CIT Workshops 2008 IEEE 8th Inter-national Conference on.2008:1

19、4-19. 5GUREVV, PATHMANATHANP, FATYEBERT J L.A high 一 resolution computational model of the deforming human heartJ.Biomechanics and model-ing in mechanobiology, 2015, 14 (4) :829-849. 6赵妍妍, 秦兵, 车万翔, 等.中文事件抽取技术研究J.中文信息学报, 2008, 22 (1) :3-8. 7丁效, 宋凡, 秦兵, 等.音乐领域典型事件抽取方法研究J.中文信息学报, 2011, 25 (2) :15-20. 8付剑锋, 刘宗田, 刘炜, 单建芳.基于特征加权的事件要素识别J.计算机科学, 2010 (3) :239-241. 9施侃晟, 刘海涛, 宋文涛.基于词性和中心点改进的文本聚类方法J.模式识别与人工智能, 2012 (6) :996-1001. 10廖涛.面向事件的文本表示及其应用研究D.上海大学, 2014.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报