收藏 分享(赏)

中文短文本分类技术的研究与实现.pdf

上传人:精品资料 文档编号:9775662 上传时间:2019-09-03 格式:PDF 页数:64 大小:3.52MB
下载 相关 举报
中文短文本分类技术的研究与实现.pdf_第1页
第1页 / 共64页
中文短文本分类技术的研究与实现.pdf_第2页
第2页 / 共64页
中文短文本分类技术的研究与实现.pdf_第3页
第3页 / 共64页
中文短文本分类技术的研究与实现.pdf_第4页
第4页 / 共64页
中文短文本分类技术的研究与实现.pdf_第5页
第5页 / 共64页
点击查看更多>>
资源描述

1、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含为获得安徽大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:链是南签字魄弘l毕年f月习日学位论文版权使用授权书本学位论文作者完全了解安徽大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权安徽大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用

2、影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:惫乏蓓签字日期:a朋V年 -1胡日 I导师签名:签字日期:弼凇,。f,妒年y-月罗口日摘要摘要文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方法并不能很好

3、用于处理短文本。本文首先总结了国内外针对短文本分类技术的研究现状,现有的短文本分类方法大多需要背景知识库的支持,但是这些分类方法的普适性不是很强,而且处理背景知识库需要耗费大量的精力。常见的短文本主要有论坛发帖、产品评论、手机短信以及微博等等。与传统长文本相比较,短文本具有自己鲜明的特点,比如长度很短、用词不规范、新词不断出现等等。对短文本进行分类研究具有重要现实意义,与长文本相比较,短文本具有自己的突出特点,本文提出了基于搜索引擎和LDA主题模型的短文本分类方法。然后,本文讨论了传统文本分类过程中重要的技术方法。包括文本的预处理,文本向量化表示,特征提取方法,常用分类方法等。同时指出这些方法

4、需要改进的地方以便用于短文本的分类处理。接着,文章介绍了LDA主题模型。并在主题模型的基础上结合搜索引擎,对短文本进行扩充处理和向量化表示。通过实验验证,本文提出的方法能够有效表示短文本,提高短文本分类的效果。相信随着短文本分类技术不断的发展完善,短文本分类对于政府决策、网络信息监管、舆情引导等社会工作会起到广泛而深刻的意义。关键字:文本挖掘短文本文本分类主题模型AbstractAbstractText classification is an important subject in the field of text miningIt refers tothat,in the known

5、classification system,it confirms the process of the unknown textcategory based on the known text content automaticallyText classification helpsusers deal with the messy information partly and read a large number of texts by theirtendencyCurrently,most text classifications deal with the long texts w

6、hich containmore informationHoweveL with the rapid development of Intemet,more and moreshort texts appear in the lifeLack of the information of short texts,traditionalmethods of long text classification do not work well for short textsFirstly,the dissertation summarizes the existing technologies of

7、short textclassification both domestically and internationallyMost methods of short textclassification need to know the background knowledge that cost a lot of energy whilethey cant be applied in all casesThe usual short text includes BBS,product reviews,SMS,micro-blog and SO onCompared with the lon

8、g text,short text has itsdistinctive features such as short,abnormal words,new words appear constantly andSO on,therefore it is significant to Study the short textThen based on search engineand LDA topic model,we put forward a method for the short text classificationSecondly,we discuss the important

9、 technology of traditional text classification,including the reprocessing of text,text vectorization,feature extraction,usualclassification method and SO onSimukaneously we point out which to improve fordealing with short text classificationThen we introduce the LDA topic model,on the basis of the t

10、opic model,weextend and complement the feature information of short text with the combination ofsearch engineThe result of experiment shows that the method in this dissertation candenote short text and improve the performance of short text classificationWith the development of the short text classif

11、ication technology,it will be moreand more important for government础iIlg decision,supervising the networkinformation,guiding the direction of public opinion and SO onIIAbstractKey words:text mining;short text;text classification;topic modelIII目录目录摘要IAbstract1I目录Iv第一章 绪论i11选题背景及意义112国内外短文本分类技术研究现状212

12、1短文本分类研究现状2122短文本的特点及分类研究中存在的难点。413自然语言处理简介714本文内容组织结构815本章小结8第二章 信息检索模型921布尔模型922概率模型923语言模型一1024向量空间模型1025 LDA主题模型11251主题模型简介11252 LDA主题模型输入12253主题模型假设13254 LDA主题模型表示13255参数估计与Gibbs抽样1425。6狄利克雷(Dirichlet)分布1526向量空间模型和主题模型比较分析1627本章小结17第三章 常用文本分类相关技术1831相关技术概述1832文本预处理19321词干提取19322中文文本分词19323去除停用词

13、2333文本表示2334特征提取23341互信息(MI)24342卡方统计量(CHI)253。43信息增益(IG)25344期望交叉熵(ECE)26345文档频率(DF)2635常用分类方法26351 Rocchio分类算法27352贝叶斯分类算法27IV目录353 K最近邻分类算法28354支持向量机分类算法2936本章小结30第四章 短文本信息扩充3141常用的短文本信息扩充方法3142基于搜索引擎的URL信息扩充方法31421网络爬虫32422搜索引擎选择33423 URL信息获取算法37424 JSOUP工具包37425短文本扩充算法3843本章小结39第五章 实验与结果分析4051实

14、验环境4052实验数据及结果评价指标4053预处理4154 LDA模型工具使用42541 JGibbLDA42542模型训练及实验方法输入4555 SVM实验结果46551最优主题个数和主题模型分类结果46552基于卡方特征提取的分类结果4756朴素贝叶斯州B)分类结果一47561主题模型分类结果48562基于卡方特征提取的分类结果4957基于共现网页的相似度比较分类结果4958实验结果分析5059本章小结50第六章 结束语5161总结5162研究展望51参考文献53致谢56攻读硕士期间发表的论文57V第一章绪论第一章 绪论随着互联网的普及,尤其是近年来移动互联的迅速发展,人们获取和交换信息的

15、越来越依赖于各式的网络渠道。在日常生活中,人们通过手机短信、微博、论坛发帖回帖等等形式交换信息表达自己观点。这些信息的功能特点是信息长度较短、表达灵活、数据规模大、用词不规范等等,他们存在于我们生活的方方面面,因此提高对这类信息的处理能力是很重要的,其中分类是信息处理的基本形式,分类对于管理开发信息资源也有重要的意义,同时对于人性化推荐,政府舆情分析决策,热点事件发现等都有较为重要的研究价值。11选题背景及意义1969年美国国防部的ARPnet投入使用标志现代计算机网络诞生,因特网在全世界范围内迅速发展,网络已经成为信息传播的最重要载体。根据中国互联网络信息中心发布的报告显示【11,中国网民数

16、量世界第一而且人均上网时间长,2013年底中国网民规模达到618亿,人均每周上网时间长达25个小时。空间留言、微博、BBS发帖回帖等是这些网民使用最为频繁的网络应用。这些网络应用深刻改变着人们的交流方式和生活习惯。在我们平时生活中接触到的信息中有很大一部分都是短文本。这些短文本信息的主要来源于产品评论、网络问答、论坛发帖回帖、空间留言、微博等等,这些短文本长度较短,数量庞大,而且内容涉及人民生活的方方面面,其中包含人们对于社会各种热点问题的观点看法。在自然语言处理的实际研究中运用传统的长文本分类算法实现短文本自动分类口1,在话题跟踪发现p1141、新词分析【51、舆情引导、政府决策等领域都有重

17、要价值。最近更是有大量的学者将其应用于情感分析6】711lH垃圾信息过滤【引。从上世纪六十年代开始,有关领域的学者开始研究自动文本分类技术【91,初期的自动文本分类方法主要是基于知识工程【10】,需要人工定义规则作为分类的依据,这些方法的缺陷是规则的制定要求研究者有相关联领域专业知识,这在实际中很难做到。到了上世纪九十年代,随着机器学-j1111研究的兴起,大规模文本中文短文本分类技术研究与实现数据的分类又再次引起研究者的关注,这种方法需要训练分类器,并依据分类器的规则判别未知测试文本所属类别f12】【1 31。这种方法不需要人为的干预,能够适用于各种领域的分类需要,而且在分类的准确率和效率方

18、面有了大幅提高,因此这种方法是目前主流的文本分类方法。12国内外短文本分类技术研究现状121短文本分类研究现状近年来互联网发展迅速,各种文本信息呈指数级爆炸性增长,如何在这海量又复杂的文本信息中掌握有价值的部分是信息处理的关键目标。比较常用的是基于机器学习的文本分类方法,能够在一定程度上处理文本分类问题。最近,有研究者将文本分类与搜索引擎、信息过滤和信息推送等技术手段相结合,又进一步有效改善了分类效果。短文本是指长度较短,通常情况下不超过100个字符,包含信息量很少的文本。例如手机短信、微博、问答、聊天记录等都是短文本。短文本和长文本形式和包含的内容上有很大的不同,因此普通的针对长文本的分类方

19、法不能直接用于短文本。近年来有关短文本的分类技术研究者做了很多的工作,提出了很多有效的新方法,国内外高水平会议和期刊上都会有这方面的论文。1211国际研究现状由于短文本具有包含信息量少的特点,使用传统的特征抽取表示短文本在分类时会遇到很多的问题。当前,国外针对twitter这类短文本的分类研究已经获得一定的成果。M Sahami,TD Heilman等人在计算短文本的相似度时使用了搜索引擎返回的有关信息【14】;Danesh Irani等人使用twitter上的话题趋势作为扩充信息来对短文本进行分类也取得了较好的效果15】;Xuan-HieuPhan是使用主题模型提取短文本的隐含主题进行分类【

20、l 6】;Bharath Srkam提出用twitter的作者的个人注册信息及其文本信息作为最终的特征域对文本进行一次“预归类”处理fl 7o目前基于主题模型的方法是研究者认为性能比较好的一种方法,它的具体过程分类下面4个步骤:(1)根据主题下词项的集合,计算短文本中的词项和主题下词2第一章绪论的共现个数,这个共现个数表示短文本和每个主题的匹配程度,即表示归属某一类别主题的概率;(2)考虑到有些词不能直接匹配到某一主题下,但是这个词可能与主题词的上层概念匹配,这时需要词语上下位关系树来确定其最终的匹配程度;(3)对于那些不存在上下位词语匹配的短文本词汇,使用潜在语义索引来计算文本词和主题的匹配

21、程度;(4)最终短文本的类别归属是由以上三个方面综合确定的。1212国内研究现状由于中文短文本和英文短文本的形式特点有很大的区别,体现在中文短文本的文本表示更加稀疏因此它的特征空间维数更大,同时词的使用更加灵活,词表达的意义更加隐晦,因此处理英文短文本方法不一定适合用于中文短文本。目前参与中文短文本分类的研究的学者很多,有一些学者研究短文本的特征提取扩展方式,例如王鹏等利用依存关系抽取上下位词扩充短文本特征集合Il 8j;宁亚辉等使用知网这一背景知识库提出基于领域词语本体的短文本分类【l 9J;王细薇等人利用FPGrowth方法挖掘数据的扩展关系【20J,然后引入知网语义信息对短文本进行分类。

22、但是这些方法往往都需要依赖大规模背景知识库,处理背景知识库需要耗费大量的精力,同时知识库更新速度慢可扩展性差,难以适用实时性较强的短文本分类的需要。在中文微博的研究方面,虽然截止到2013年底国内微博用户的人数达到5亿,但是微博进入国内时间较晚并且国内的微博服务商没有提供开放微博数据方面的服务,因此针对微博的研究处于摸索阶段,当下针对微博的研究大多集中于微博的情感倾向性、微博观点句识别、微博评价对象识别等方面。但是微博这一社交平台深刻影响人们日常生活,针对微博这类中文短文本的分类研究是有非常重要意义的。1213短文本分类研究应用国外的研究者对twitter这类短文本的研究起步较早,方法的效果比

23、较稳定,技术人员将研究成果应用于金融、政治及社会舆论等领域,并开发出一些比较成功的商业产品。例如,德国的慕尼黑大学和美国的佩斯大学共同发布了一个命名中文短文本分类技术研究与实现为twitter trader的网站【211,这个网站使用twitter chatter获得一些股票信息并预测这些股票的走势,为股票投资者提供参考信息;美国的斯坦福大学通过研究犯罪案件的相关信息预测下一件犯罪案件的发生地和发生时间。在国内,研究者也有成功的先例。酷T网221使用新浪微博提供的微博标签并将标签定位到购物网站上与标签主题相关的T J洫购物链接,为做个性T恤的商家提供宣传服务。122短文本的特点及分类研究中存在

24、的难点1221短文本特点短文本相对于长文本的形式和内容都有很大的区别,其特点总结如下:(1)长度短、信息少:短文本一般长度较短,词项个数少,包含的信息量少。(2)特征稀疏:由于短文本长度短,造成样本的特征比较稀疏,很难抽取有效的特征。(3)实时性较强:实时性是指实时发送接收数据,且数量庞大。一般的短文本信息诸如手机短信等数据都是在线发送,实时接收,客户端分布广泛,数据难以采集捕捉,然而这些数据的数量庞大,数据实时增长较快。这些都要求处理短文本的方法需要具有较高效率,适应新数据能力强。(4)语言使用不规范:短文本需要表达简洁,因此类似于网络回帖这类短文本经常会出现用词不规范、拼写错误、谐音字、缩

25、写使用较多等等现象。例如“拍砖”提意见,“不要酱紫”不要这样子,“晒”拿出来看看,“sofa”第一个回帖的内容等等这些词经常在短文本中出现。(5)新词不断出现:在不同的时期经常会出现反映特定时代背景的词语,这些词语反映了当时的社会政治、经济状况和人们的价值观念、生活状态等。例如上世纪五十年代到改革开放前,“赶英超美”、“土改”、“抗美援朝”、“大跃进”、“文化大革命”、“大字报”等词都反映了当时的社会变革情况,“改革开放”、“万元户”、“下海”等词反映了改革开放初期的社会潮流,近来“和谐社会”、“科学发展观”、“中国梦”、“大数据”等表现出当下中国发生的4第一章绪论变化及科技进步。据统计近20

26、年来,社会平均每年都要出现800多个新词23】。近年来随着移动互联的快速发展,各种各样的短文本出现在人们的生活中,成为人们表达情感,参与社会生活的重要方式之一,大量的新词、网络用语等不断出现在短文本中,这些新词、网络用语代表了时下的社会潮流,体现人们对当前某些热点问题的看法态度。分析这些短文本并获取这些词是有重要现实意义的,一方面可以及时获取当前人们关注的社会热点及其对这些热点问题的态度,有助于政府部门制定相关的政策;另一方面对于编纂词典,挖掘术语都有非常重要价值。1222短文本分类中存在的难点及解决方案由于短文本大多是离散语义文本,他们来自不同人的行为,分散于不同时间地点。处理这种离散的短文

27、本的另一个难点是如何复原语义、识别网络行为。针对这一问题,如何识别这种离散短文本的特征信息是非常重要的,其流程如图11所示。进行这方面研究的主要难点在于:如何复原离散短文本、短文本的分词方法、如何提取短文本特征、如何构建短文本知识库等等。图11短文本特征信息识别流程图Figure 11 The Flow Diagram of Shorttext Feature Information Analyze针对上述的技术难点,具体采用下面的解决方法:中文短文本分类技术研究与实现(1)复原离散短文本【241:本文所采用的的语料库是百度问答的问题集,这是典型的离散短文本,这种短文本单词回话内容少,问题及答

28、案多个文本之间相互关联。针对这些文本的处理方法包括下面的内容:第一,离散篇章跟踪。即把零散的段落保真还原,更好地理解文本表达的内容。例如,把问题及其相关答案组成一个文本。第二,在网络环境下的信息扩散模型和扩散分析技术。在网络中转载现象是很普遍的,权威网站更容易成为扩散信息的源头,这些来自源头的信息就是对短文本的复原。(2)短文本的分词:分词算法要能适应短文本的特点,这就需要改进句法分析规则库和词性库。采用下面两种方法处理:第一,增加句模,新增的句模要能解析新出现的表达方式。第二,建立常识知识库,将新出现的表达方式作为常识处理。对于经常出现的新词,可以采用基于标引及网络间同现频率的新词发现算法,

29、首先对文本进行字标引处理,字标引库格式为(字,文章序号,字在文中位置);同时在原有分词基础上生成词标引库,格式为(词,文章序号,词在文中位置)。同时使用这两个标引库避免串频统计时对源文档进行匹配,节约算法时间消耗。接着,通过对字节构组合分析、篇章串频统计、网络间的串频统计发现新词,并将新词加入词库。最后将词库加入分词词典供分词使用。(3)提取短文本特征:提取特征是文本分类中至关重要的一步,特征提取的效果直接影响文本分类结果。中文文本词的数量级是非常大的,这就导致特征维度很高,如何去除那些噪声特征是特征提取效果的关键。可以使用一个特征簇代表某一类的特征,最终的特征集是各个类的特征簇的集合。(4)

30、构建短文本知识库:构建这种知识库的目的是为了识别新词,理解文本内容,可以考虑采用现有各种词典,专业部门提供的知识库、词表等等。(5)短文本信息扩充:对于那些不能复原的离散短文本,我们考虑如何对短文本信息进行扩充。现有的主要扩充方案有:(a)利用现有背景知识库,分别比较样本文本、测试文本与背景知识库的相似度,用这种间接相似度衡量样本文本和测试文本之间的相似度;(b)对短文本进行扩充,如果一个文档和短文本相关,则使用这个文档替代短文本;(c)使用搜索引擎的搜索结果计算相似度【2 5|,具体方法有:提取返回的前K个搜索结果的交集表示短文本相似度f26】;用搜索获得结果网页片段对短文本进行内容上扩充后

31、计算相似度27】;(d)使用6第一章绪论HowNett281、WordNet291这样的知识库找短文本词项的同义词或有上下位关系的词来对短文本进行扩充【30】。13自然语言处理简介自然语言处理的英文简称是NLP,这门学科是计算机人工智能领域的重要研究方向,这一领域主要研究如何使用人类自然语言实现人与计算机之间的交流。NLP包含四个研究层次,如图12所示。本文研究主要针对第二、三层次进行。图12 NLP研究层次Figure 1-2 Research level ofNLP自然语言处理要实现计算机理解自然语言、生成自然语言是非常困难的,主要的难点在于NLP研究的各个层次之间存在多样行和歧义性。但是

32、近年来自然语言处理发展迅速,主要有以下原因推动:(1)计算机的运算速度和存储能力快速提高;(2)计算机网络在世界范围内普及,使得研究用的预料资源丰富,而且获取预料更加容易;(3)机器学习学科发展比较成熟,并且应用于自然语言处理,使得自然语言处理的效果得到提高;(4)自然语言的形式内容非常复杂,很难用人工规则来描述,必须尝试从预料中学习自然语言的规律。虽然自然语言处理得到了快速的发展,但是从理论上来看现有的方法对于计中文短文本分类技术研究与实现算机处理自然语言能力的提升似乎达到了瓶颈。要取得进一步的成果还需要把基于规则的方法和基于机器学习的统计方法集合起来。14本文内容组织结构如上所述短文本分类

33、应用广泛,对这一方向进行深入的探讨和研究具有十分重要的现实意义。本文针对短文本长度短、信息少的特点重点解决如何扩充短文本信息并进行分类的问题。本文主要研究安排如下:第一章绪论部分主要介绍短文本研究的背景及意义,国内外短文本研究技术的现状以及自然语言处理的相关内容。第二章总结在信息检索领域使用的主要模型,包括布尔模型、概率模型、语言模型、向量空间模型、主题模型,并对向量空间模型和主题模型进行比较分析。其中重点介绍了主题模型的原理。第三章介绍了传统的文本分类过程及相关的技术,包括文本预处理、文本表示、特征提取、分类算法、分类结果的评价指标。第四章介绍常用的短文本信息扩充技术,包括短文本内容的扩充和

34、短文本特征的扩展。第五章在前文的基础上介绍本文实验过程,基于搜索引擎对短文本进行扩充并用LDA主体模型对短文本主题表示,使用SVM分类器分类,然后对实验结果进行分析。第六章结束语,对全文进行总结展望。15本章小结本章从短文本分类研究应用广泛具有重要的意义出发,总结了短文本分类技术的研究现状,介绍了短文本的特点,并讨论了短文本分类中存在的技术难点,最后介绍本文的纲要。第二章 信息检索模型第二章 信息检索模型本章主要总结了信息检索领域的相关模型,对这些模型的理论基础作了比较详细介绍。同时还指出了模型在用于信息检索领域时存在的问题,归纳了主题模型处理文本的优势。21布尔模型布尔模型311中查询词即是

35、布尔表达式,表达式中包含关键词、逻辑运算符。查询词中的内容表达了要查找的文档需要具有的特征。模型中文档表示如公式(21)所示:di=(wil,Wi2,Wi3,win) (2-1)表达式qhdi代表了文档集中第i篇文档,n表示文档集中特征个数,Wij的值只能取0或1,其中j【1,n】,Wij的值为0表示第i篇文档di中不包含特征集中第j个特征,wii的值为l表示第i篇文档di中包含特征集中第J个特征。布尔模型的一大优点就是表达形式直观简单,研究者容易掌握使用。但是,这个模型也有明显的缺陷。首先,模型对于某一篇文档检索的结果只有是和不是两种情况,这样的检索结果没有将文档分级概念应用其中,限制了检索

36、功能。第二,布尔表达式表达语义非常精确,但是查询的需要往往不能精确表达,这就造成了查询需求往往不能转换为布尔表达式。第三,检索过程只是简单地将查询词与文档匹配得到结果,没有考虑词项出现次数等其他因素,而在用0和1两种特征值表示文档时不同的文档向量表示很可能相同,这样会检索出很多不相关的结果。22概率模型概率模型的基本理论如下:对于一个给定的查询,数据集中的文档被分为和查询相关文档以及和查询不相关文档两类。二值独立模型是一种重要的概率模型。在这个模型中,文档d和查询q都被表示成如公式(22)和公式(23)所示向量:中文短文本分类技术研究与实现D1=t1,t2一,tm】 (22)。Q=q1,q2,

37、qm (23)当特征诟-Wi现在文档或查询中时,ti和lqi为1,反之为0。则计算文档d与查询q的相关度如公式(2。4)和公式(25)所示:P(R=1I颟)=坠喀挚型(2-4)P(R=o l颟)=P(R=101Q-匐丽P(DI广(Q,R一=0)(25)23语言模型建立一个语言模型【33】通常要考虑三个因素:l、语言建模对象;2、语言建模阶数;3、平滑方法选择。语言建模的对象可以是文档,也可以是查询,或者对两者都建模。对文档建模得到文档模型Md,对查询建模得到查询模型Mq。语言模型中存在一个普遍的问题是可能会过度估计文档中只出现次数很少的词。这就需要用平滑解决这个问题。平滑避免零概率的出现,这是

38、计算权重过程中非常重要的一点。平滑的方法主要有一下三种:1、在观察到的数目上加上一个数字(这个数字通常很小),对概率分布重新归一化;2、将获得的语言模型看成是贝叶斯更新过程的先验分布;3、最大似然估计方法。综上所述,在对文档进行建模、建立一元语言模型、使用最大似然估计方法平滑的情况下,文档d的语言模型Md生成查询q的概率如公式(26)所示:P(qlMd)=兀tqmle(tlMd)=兀tq等 (2-6)上式中,Ld表示文档d出现的特征词个数,吒d表示特征词t出现在文档d中的频率。24向量空间模型使用向量空间模型(VSM,Vector Space Model)需要解决一个重要的问题:如何将文本转换

39、成空间向量。TF,IDF就是一种常用的计算词项权重把文本lO第二章 信息检索模型转换成向量的方法,转换后的向量形式为:1d=(w,W2,W3一,Wn)。其中n表示向量的维数,也即是文档集特征词的个数,wi=tftd半idft(i1,n),tft,d表示特征词项在文档d中出现的频率,idft=log(Ndft),这个表示特征词项的逆文档频率,dff表示特征词项的文档频率,N表示文档集中文档个数。另一个重要的问题是计算文档之间的相似度。文档相似度就是文档之间内容相关的程度,这个相似度可以用两文档向量之间的夹角余弦衡量。查找相似文档的过程也可以用一个查询向量表示,这样这个查询向量和文档向量就可以在同

40、一个空间中表示,如图21所示。计算文档向量和查询向量的相似度,将计算结果进行排序并与预先设定的阈值比较,如果计算结果大于阈值表示文档与查询相关,保留这个查询结果;否则文档与查询不相关,不考虑这个查询结果。文本向量d-(wt wn)图21 VSM及相似度计算Figure 2一l VSM and Similarity Calculation相似度可以用如公式(27)所示方式度量:sim(d。dk):毒垫些型鳖些二 (27)m,=幸些些些丝訾(2一)、f(&:,w未i)+(:。w亳)上式中,dm,dk表示两篇文档,Wmi、wki表示特征词ti在两篇文档下的权值,n表示向量维数也就是特征词的个数。25

41、 LDA主题模型251主题模型简介自然语言处理中的LDA(Latent DirichletAllocation)主题模型主要用于挖掘中文短文本分类技术研究与实现语料潜在语义,识别语料库中隐含的语义。它的主要原理是基于词袋假设的方法,每一篇文档中的词都转换为词频向量,而且可以交换顺序而不影响训练结果,使用这种向量更容易建模并用于计算。LDA主题模型起源于Deerwester等人在1 990年提出的隐性语义索引(Latent Semantic Indexing,LSI)【35】,它为主题模型的发展奠定了基础。1999年Hofmann在LSI的基础上提出了概率隐性语义索引(probabilistic

42、 Latent Semantic Indexing,pLSI)3 61,这是一个真正意义上的主题模型。在pLSI的基础上Blei等人在2003年将其扩展得到更为完全的概率生成模型LDA(Latent Dirichlet Allocation)371。LDA主题模型可以用于提取文本隐含主题信息,因此在文本分类领域受到广泛的关注,越来越多的研究人员对LDA模型进行改进并提出了LabeledLDA、Link-PLSA-LDA38】【391等文本分类模型。除了LDA模型,Xiaohui Yan等人提出了用于短文本分类的BTM(Biterm TopicModel)401模型,取得了较好的分类效果。LSI并不是概率模型,而LDA模型是三层贝叶斯概率模型,包含文档主题词这样三个层次,它将文档都看作主题的概率分布,主题又看成是词的概率分布。例如对于有M篇文档的语料库,设定有T个主题,整个语料库有V个词

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报