收藏 分享(赏)

全国信息检索学术会议 第三届全国信息检索与内容安全学术会议.doc

上传人:dreamzhangning 文档编号:5751756 上传时间:2019-03-15 格式:DOC 页数:18 大小:40.50KB
下载 相关 举报
全国信息检索学术会议 第三届全国信息检索与内容安全学术会议.doc_第1页
第1页 / 共18页
全国信息检索学术会议 第三届全国信息检索与内容安全学术会议.doc_第2页
第2页 / 共18页
全国信息检索学术会议 第三届全国信息检索与内容安全学术会议.doc_第3页
第3页 / 共18页
全国信息检索学术会议 第三届全国信息检索与内容安全学术会议.doc_第4页
第4页 / 共18页
全国信息检索学术会议 第三届全国信息检索与内容安全学术会议.doc_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、1全国信息检索学术会议 第三届全国信息检索与内容安全学术会议汉语主客观文本分类方法的研究姚天昉,彭思崴(上海交通大学计算机科学与工程系,上海 200240)摘 要: 在意见挖掘中所涉及到的文本类型是主观性文本。这就需要解决主客观文本的分类问题。本文首先介绍了主客观文本的定义和它们之间的区别。接着针对主观性文本我为明天准备了什么?我相信明天会更好,保持微笑面对明天。明天是个未知数,不确定,我们只能想象,不能触摸,但是我们都会认为明天是好的。人只有三天,昨天;今天;明天。昨天已经过去了,永远不会回来,一去不复返,成为过去。今天是属于你的,你要充分把握,为明天在政协第六届晋城市委员会第一次会议闭幕会

2、上的讲话(2011 年 8 月 28 日)张茂才 各位委员、同志们:政协晋城市六届一次会议,经过全体委员和与会同志们的共同努2力,圆满完成了各项议程,今天就要胜利闭幕了。会议期间,全体委员审议通过了政协常委会工作报告、提案汉语主客观文本分类方法的研究姚天昉,彭思崴(上海交通大学计算机科学与工程系,上海 200240)摘 要: 在意见挖掘中所涉及到的文本类型是主观性文本。这就需要解决主客观文本的分类问题。本文首先介绍了主客观文本的定义和它们之间的区别。接着针对主观性文本的特点提出了分类适用的预选特征。在此基础上,介绍了通过实验选择稳定的分类特征以及使用 Weka 工具中的多种分类算法进行分类性能

3、的测试。实验结果表明:分类算法的 F 度量最高时可以达到 93.8%,平均 F 度量也达到了 88.4%。这说明我们提出的分类特征和所选择的分类算法是合理和有效的。关键词: 文本分类;主观性文本;机器学习;意见挖掘A Study of the Classification Approach for Chinese Subjective and Objective TextsYao Tianfang, Peng Siwei(Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai

4、 200240)Abstract: The text type related to opinion mining is subjective text. Therefore, it is necessary to give a solution 3for the classification between subjective and objective texts. In this paper, first of all, we present the definitions concerning subjective and objective texts as well as the

5、 differences between them. Then we propose the preselected features which are suitable to the classification in allusion to subjective texts properties. On the basis of that, we introduce that we picked out the steady features from the preselected features by our experiment and utilized multiple cla

6、ssification algorithms integrated in Weka tool to test the classification performance of them. The experimental results show that the highest F-measure among the classification algorithms can achieve 93.8%, and the average F-measure of them can also attain 88.4%. Consequently, itindicates that the p

7、roposed classification features and the selected classification algorithms are reasonable andefficient.key words: text classification; subjective text; machine learning; opinion mining1 概述近年来,对主观性文本处理方面的研究十分活跃。主要特点是对基于断言(allegations )或评论(arguments)的文本进行处理,此类文本内容包含有个人、群体、组织等4的意见、情感和态度等。例如,在意见挖掘中1,所处理

8、的文本类型就是主观性文本。因此,如果要在意见挖掘系统中做到全自动处理的话,就要考虑对主客观文本进行分类,这是一个十分重要的预处理环节。对于客观性文本分类问题国内外已经进行过大量的研究并取得了许多成果2, 3, 4。反观主观性文本,特别是汉语主观性文本的分类研究则起步较晚。因此,加强对汉语主观性文本的分类研究,使之成果与客观性文本分类研究成果相适应,具有十分重要的意义。主观性文本和客观性文本有着许多区别,最重要的区别在于主观性文本不是一种规范的文本。它在内容上体现了人们的意愿、情感和态度;在形式上则是不受规范语言表达约束的自由写作。因此,这就决定了对主观性文本处理具有相当大的难度,需要做许多探索

9、性的研究工作。本文主要在主观性文本稳定的分类特征选择和有效的分类算法选择方面做了初步的探索,所采用的方法主要是通过特定领域(汽车领域)的实验数据进行研究。在分类特征选择方面,我们不但考虑这些特征是否反映了主观性文本的主要特性,而且还考虑它们是否是稳定的特征。在此基础上,我们还考虑采用何种有效的分类算法才能使主客观文本的分类性能达到最优。2 主客观文本的定义和区别52.1 主观性文本所谓主观性文本是指对于非事实进行描述的文本。文本内容基于断言或评论且带有个人情感和意向的抒发。例如个人、群体或组织所发表的意见、抒发的情感和表达的态度。例如:我购的 POLO1.4 手动雅致版,感觉很不错的,驾驶舒适

10、、做工精细、省油。这个例子表示的是作者对于 POLO1.4 版汽车使用后的意见,并且带有明显的褒义情感倾向。类似上述例子的句子和文本在本文实验中都会被认定为主观性句子和文本。只要文本中存在至少一句主观性句子,该文本就会被认定为主观性文本。2.2 客观性文本所谓客观性文本是指作者对于事件、对象等进行基于事实的描述,不带有个人的好恶和偏见。所以,它是客观认识的表达。作为客观性文本,它的本意具有客观性、绝对性和确定性。例如:普锐斯是世界上首款量产混合动力车,该车将汽油发动机和电动机有效结合,能够直接使用现在的燃油,无需充电。上述例子是对普锐斯汽车本身属性的一段描述。通过这句句子我们可以认识到普锐斯汽

11、车是带有“混合动力车”这6种属性的汽车,任何读者都会产生这样一种理解,不会有偏差。类似于上述例子的句子和文本在本文实验中都会被认定为客观性句子和文本。只要文本中不存在主观性句子,该文本就会被认定为客观性文本。3 主观性文本分类特征的预选主观性文本分类有别于一般的客观性文本分类。一般来说,客观性文本的句型、用词都是规范的。而主观性文本不论在字和词的使用上,还是在句型的使用上与客观性文本都有较大的差别。因此,普通的字频或词频统计对此类文本分类不一定适用。经过对大量的主客观文本的观察和分析,我们提出以下几方面特征作为预选的主客观文本分类特征。这类特征反映了主客观文本的主要区别。当然,还要根据实验的结

12、果从中筛选较稳定的特征。(1) 情感形容词(F1)主观性文本中包含作者个人的意见,而这些意见的表达会抒发作者的情感倾向。它们又是通过词汇来表达的。在这些词汇中,情感形容词是一种使用比较普遍的词汇。例如:我喜欢开着它到处逛,很好驾驶操控性能让我很轻松。好或是坏?喜欢或是讨厌?可以使用情感形容词来表达。7上句中“好”和“轻松”就是情感形容词。在对英语主客观文本和句子的分类研究中也使用类似的特征5, 6。(2) 第一或第二人称代词(F2)在主观性文本中,作者为了表达属于自己或对方意见的言论常常会加上第一或第二人称代词,例如:我劝大家不要买这烂车,我后悔购买了一辆。而客观性文本则往往要体现出是对事实的

13、描述,如果加上第一人称等则会造成别人对文本内容的误解。因此客观性文本基本不使用第一和第二人称。唯一的例外就是当引用别人的话时有可能会出现这两种人称。例如:研发部门王经理表示:“我们的部门将致力于新一代引擎的开发”。(3) 不规范的标点符号(F3)因为主观性文本是一种非规范性文本,因此在标点符号的使用上会显得极不规范。而客观性文本属于规范性文本,一般不会出现这样的情况。例如:大众为何价格这么坚?!很明显,上述句子表达了作者对大众价格昂贵的不理解。(4) 带有情感色彩的标点符号(F4)问号的出现表示作者对事物怀有不确定性的意念;而感8叹号的出现则表示作者对事物怀有吃惊或是激动的感情,两者都是表达作

14、者内心的一种情感。因此这种标点符号大部分出现在主观性文本中,而很少出现在客观性文本中。举例:劝一句,别抱着原装发动机睡觉哦!车是很好,怎么就一直不降价呢?(5) 感叹词(F5)感叹词几乎不携带任何信息。因此,一般会将这类词汇作为停用词(stop word)给去掉。不过,这种词汇能够成为区别主客观文本的一种特征。因为客观性文本讲究的是用词的效率。因此在描述一个事实的时候,通常不会使用冗余的单词,更不用说出现这类停用词了。反观主观性文本,它具有相当的随意性,而且作者用词也不那么讲究,所以这种词出现的频率就比较大。况且,感叹词也能帮助作者更好地表达自身的感情倾向。例如:车不错,应该再降点价,毕竟也够

15、老啦。5 万以内行不,可别在质量上打折啊! 这句用了感叹词“啦”和“啊”的主观性句子更强烈地表现了作者的期望。(6) 发表看法或意见的动词(F6)人们往往会在主观性文本中用些例如“觉得”、 “认为”、 “建议”等发表看法或意见的动词来表达自己的看法或意见。它9是主观性文本中经常会出现的语言现象。例如:我认为到时它会比其它同类款品牌车更有市场!快降价啊!而客观性文本,即使出现此类动词,也不会与第一或第二人称代词连用。所以,这两种特征的结合,使主观性文本的特点更好地突出出来。这类动词通过制作动词词典的方式来收集和查询。(7) 不精确的数字和日期(F7)一般在论坛发表言论的作者往往手中没有什么权威的

16、资料,仅仅是凭着自己的感觉或是实际的情况作为依据发表意见。因此,很少会出现很详细的数据资料。而客观性文本,作为一种对客观事实的描述,一向是力求真实准确,它往往依靠准确的数据来说话,给读者一种可靠的感觉。举例:太贵了要是八万还行(主观性文本中数字以一种模糊的形式出现)它长 3.94 米,比长安之星长了 40 多厘米,高了几厘米。(客观性文本中数据以一种精确的形式出现)4 实验结果分析4.1 实验语料我们以论坛的评论为主进行语料的收集。考虑到一般的文本分类基本上都是用来进行领域分类的,而主观性文本10分类则完全脱离了这样一个概念,它是对两个不同性质的文本进行分类。尽管它没有领域这样一个概念,但我们

17、还是决定实验语料从特定领域(汽车领域)选取。太平洋汽车论坛 1 和中国汽车网 2 作为国内两大汉语汽车论坛,日浏览量很大,评论也很多,也就意味着有着很丰富的语料。同时这两个论坛分类明确,容易进行语料的获取。4.2 实验工具和分类算法它作为 Weka3 是一个由新西兰 Waikato 大学进行开发的基于语言分析的实用工具7。一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括 12 3对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。它可以运行于几乎所有的操作平台。在本实验中,我们使用上述工具完成了对实验数据的训练、测试和评价。实验程序开发语言为

18、 java,开发环境是 jdk1.5.0_06,开发工具为 eclipse3.2.0。除了使用 Weka 作为主要实验平台外,我们还使用了海量分词工具 4 进行汉语文本中句子的分词和词性标记。在实验中,当训练语料时,主观性文本和客观性文本是分开进行训练的,即提供了两个训练函数。这样可以有助11于比较预选的特征是否合适。如果预选的某特征对于两类文本都是敏感的话,就需要调整(取消)该特征。具体分析见 4.4 节。在应用分类算法时,我们选用了四个分类算法进行主客观文本分类的性能比较,即:(1)标准概率朴素贝叶斯分类算法(Nave Bayes) ;(2)基本的分治决策树算法(Id3) ;(3)简单结合

19、规则学习算法(Conjunctive Rule) ;(4)用于支持向量分类的连续最小优化算法(SMO) 。4.3 实验测试方法和评价指标在实验中,我们采用了 10 折交叉验证(Ten-folder Cross Validation)方法作为分类算法的测试方法7。在分类算法性能评价指标方面,我们采用了通常的性能评价指标查全率(Recall ) 、查准率( Precision)8和 F 度量(F-Measure) 。4.44.4.1 实验结果和分析 特征选择实验结果和分析我们从实验语料中随机选择了 78 篇主观性文本,82 篇客观性文本作为训练文本。在这些训练文本中查找预选特征并统计出结果。其中主

20、观性文本的特征统计结果如表 1 所示,客观性文本的特征统计结果如表 2 所示。表 1 主观性文本的特征统计结果 表 2 客12观性文本的特征统计结果Tab.1 Feature Statistical Result for Subjective Texts Tab.2 Feature Statistical Result for Objective Texts特征 出现特征的文本数 出现特征的文本数 特征F1 63F2 45 F1 79 F2 8 F3 33 F3 82 F4 47 F4 6 F5 36 F5 3 F6 46 F6 6 F7 41 F7 76如果一个特征在主观性文本中出现的文本数

21、与在客观性文本中出现的文本数非常相近的话,这种特征就不能有效地区分两类文本。例如,特征 F1(情感形容词) 、F3 (不 4规范的标点符号)和 F7(不精确的数字和日期)就显现了这种情况。对于特征 F1 的问题,我们观察了训练文本,发现确实不论在主观性文本还是客观性文本中都会出现情感形容词。例如,以情感形容词“高”为例:主观性文本:我觉得这个价格过高了。客观性文本:那辆车的底盘最低大约只有 10 厘米高。虽然同时出现了“高”这个形容词,但可以看到并不是两个“高”都带有情感倾向的。第二个“高”只不过是描述了一13个客观事实。但在机器学习时却很难区分。所以,以目前仅靠情感词词典来进行该项特征的鉴别

22、是行不通的。对于特征 F3 的问题,由于比较蹊跷,我们复查了程序,发现了问题所在。原来在客观性文本中有一种转义符号,用“GB2312”编码方式打开文本时,这个转义符号无法识别,程序就会认为它是不规范的标点。但用其他编码方式打开文本时会识别不出其中的汉字。唯一的办法就是对文本进行预处理,在进行训练测试前就将这些无法识别的转义符号删除,这样就能避免出现这种情况。对于特征 F7 的问题,虽然在两类文本中都出现这种特征。通过对主观性文本的观察,我们考虑可以通过设置特征有效化的阈值来区分两类文本。只有高于阈值的文本才被分类为主观性文本。因此,除了弃用 F1 特征,仍保留了 F3 和 F7 特征。即共有六

23、个特征(F2-F7)作为分类算法训练时所用的最终特征。4.4.2 分类算法性能实验结果和分析在特征不变的情况下,我们选择了 4.2 节中提到的四个不同的分类算法,并从语料中随机选择了 359 篇文本(其中191 篇为主观性文本,168 篇为客观性文本)参与实验,所得到的实验结果如表 3 所示。表 3 不同分类算法的性能14Tab.3 Performance of Different Classification Algorithms分类算法Conjunctive RuleNave Bayes 查全率 0.702 0.859 查准率 0.918 0.927 F 度量 0.795 0.891Id3

24、 0.911 0.916 0.913 SMO 0.953 0.924 0.938由于在特征选取上经过了仔细斟酌,在四个分类算法中用 10 折交叉验证测试方法所得到的分类性能都比较好。其中 SMO(用于支持向量分类的连续最小优化算法)所取得的分类性能最好。我们又对分类错误的文本进行了分析。让我们来看一句被上述分类算法分类为客观性文本的主观性文本中的句子:喜欢这车的外观,如果四轮都是碟刹就好了。如果以人工分类的角度来看,这无疑是一句存在于主观性文本中的句子。因为作者很明确地表示了自己的情感倾向。但分类系统却把它认为是客观性文本,原因在于这句句子除了两个情感词外就没有其它符合主观性文本的特征了。5

25、结论本文对解决主客观文本的分类问题进行了初步的探索。15由于我们在文本意见挖掘技术研究中发现所涉及的文本主要是主观性文本,而网上呈现的既有主观性文本,也有客观性文本。因此,为使文本意见挖掘系统完全做到自动化处理,就必须考虑主客观文本的分类问题,它也是系统预处理的必要环节。一般来说,客观性文本分类基本都是基于领域分类的,而主观性文本分类则完全不同于这样的概念,它是对两种不同性质文本进行分类,即主客观文本之间的分类。此外,主观性文本有着与客观性文本不同的地方。从内容上来说,它主要陈述了个人、群体或组织发表的意见、抒发的情感和表达的态度。从结构上来说,它是一种非规范性的文本,其中存在着非规范词汇和句

26、型。因此,单从客观性文本分类时常用的字频、词频特征来进行分类显然没有考虑主观性文本的特点。我们在观察了大量的主观性文本后,针对主观性文本的特点,提出了 7 种预选的分类特征。通过实验验证了其中 6 种特征可以作为稳定的特征在文本分类时使用。此外,为了验证何种分类算法适合于主客观文本分类,我们利用了 Weka 工具中的四种分类算法,采用同一组分类特征进行语料训练,然后采用 10 折交叉验证方法进行了测试。实验结果表明:在这些分类算法中,最高的 F度量可以达到 93.8%,平均的 F 度量也达到了 88.4%。这说明我们提出的分类特征和所选择的分类算法对于主客观16文本的分类是合理和有效的。参考文

27、献:1 Kim S-M, Hovy E. Determining the Sentiment of Opinions A. In Proc. of COLING-04: TheConference on Computational Linguistics (COLING-2004) C. Geneva, Switzerland: 2004. 13671373.2 Berry M W. Survey of Text Mining: Clustering, Classification and Retrieval M. The 1st Edition, NewYork, USA: Springer

28、-Verlag, 2004. 1-100.3 Han J, Kamber M. Data Mining: Concepts and Techniques M. The 2nd Edition, Singapore: Elsevier Inc.,2006. 285-382.4 王斌. 文本分类综述 EB/OL. ,2002.5 Wiebe J. Learning Subjective Adjectives from Corpora A. In Proc. of AAAI-00, 17th Conference of theAmerican Association for Artificial I

29、ntelligence C. Austin, USA: 2000. 735-7406 Hatzivassiloglou V, Wiebe J. Effects of Adjective Orientation and Gradability on Sentence SubjectivityA. In Proc. of the 18th International Conference on Computational Linguistics (COLING-2000) C. 17Saarbruecken, Germany: 2000. 299-305.7 Witten I H, Frank E

30、. Data Mining: Practical Machine Learning Tools and Techniques M. The 2ndEdition, San Francisco, USA: Elsevier Inc., 2005. 363-483.8 Rijsbergen C J. Information Retrieval M. The 2nd Edition, London: Butterworths, 1979. 112-140.汉语主客观文本分类方法的研究姚天昉,彭思崴(上海交通大学计算机科学与工程系,上海 200240)摘 要: 在意见挖掘中所涉及到的文本类型是主观性文

31、本。这就需要解决主客观文本的分类问题。本文首先介绍了主客观文本的定义和它们之间的区别。接着针对主观性文本汉语主客观文本分类方法的研究姚天昉,彭思崴(上海交通大学计算机科学与工程系,上海 200240)摘 要: 在意见挖掘中所涉及到的文本类型是主观性文本。这就需要解决主客观文本的分类问题。本文首先介绍了主客观文本的定义和它们之间的区别。接着针对主观性文本汉语主客观文本分类方法的研究姚天昉,彭思崴(上海交通大学计算机科学与工程系,上海 200240)摘 要: 在意见挖掘中所涉及到的文本类型是主观性文本。这就需要解决主客观文本的分类问题。本文首先介绍了主客观文本的定义和它们之间的区别。接着针对主观性文本18百度搜索“就爱阅读”,专业资料,生活学习,尽在就爱阅读网,您的在线图书馆

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报