收藏 分享(赏)

基于统计的汉语意见文本校对系统设计与实现.doc

上传人:weiwoduzun 文档编号:1891414 上传时间:2018-08-29 格式:DOC 页数:62 大小:9.54MB
下载 相关 举报
基于统计的汉语意见文本校对系统设计与实现.doc_第1页
第1页 / 共62页
基于统计的汉语意见文本校对系统设计与实现.doc_第2页
第2页 / 共62页
基于统计的汉语意见文本校对系统设计与实现.doc_第3页
第3页 / 共62页
基于统计的汉语意见文本校对系统设计与实现.doc_第4页
第4页 / 共62页
基于统计的汉语意见文本校对系统设计与实现.doc_第5页
第5页 / 共62页
点击查看更多>>
资源描述

1、 基于统计的汉语意见文本校对系统设计与实现号:培养单位:学科专业:研究方向:指导教师:完成日期:计算机科学技术学院计算机技术 猯 痯 第潞河镆饧谋颈甑阕远浴引言意见文本错别字分析错别字校对满足这一需求而发展起来的,已经成为当前自然语言处理相关领域的研究热点之。本文将网络用户发表的对某一产品的主观性评价统称为意见文本。相对于正规文本,用户生成的意见文本写作比较随意,存在大量的病态输入,如标点误用和错别字。随着网络开放性的逐渐增强,这些病态输入的形式日益多样化。这些噪声的存在给后续的分析处理工作带来了巨大的挑战。文本的规范和准确表述更是后续的意见抽取和情感分类等一系列工作的基础。文本正规化的主要任

2、务就是清除非规范文本中的病态输入所带来的噪声。而文字正规化领域中最为关键的问题之一就是文本纠错。因此,文本纠错工作将对后续工作产生重要的辅助作用,不容忽视。本文的主要目的是从意见文本自身特点出发,采用统计学知识解决文本自动校对中的两个重要问题一一标点符号校对和错别字纠正。首先,本文探究原文标点符号的可信度,在标点预测的基础上研究基于原文标点符号的标点校对方法。然后,从意见文本错别字的形成原因为切入点,探索错别字自动校对问题。本文研究意义主要体现在以下两个方面:从应用角度,本文设计并实现了意见文本校对系统,该系统具有鲁棒性,可以作为意见挖掘、意见聚集与融合等系统的预处理系统,是后续应用系统中不可

3、或缺的基础部分,因此具有广阔的应用前景。法,包括S锓,、最大熵模型 的正确位置和符号。法特征并不能完全体现标点符号的应用特点,因此一些学者尝试更深层次的句法近十年来,随着网络新媒体的迅猛发展,网络语言分析开始引起人们的极大关注【。由于新媒体中用户书写有着强烈的随意性,社会文本中存在大量非正规字符。很多研究者将精力集中于这一领域。英文文本校对起步较早,技术已相对成熟,甚至出现了一些商用系统,而中文文本校对起步较晚,发展相对滞后。文本校对工作可以分为两个子任务,即错误检测和错误纠正。黑龙江大学硕士学位论文工作的难点在于两点:第一点是识别一个未登录词引入文本纠错领域,在此取将噪声信道模型规字符梅椒酝

4、纪肷诺勒业阶钣锌赡苡胫杂恼孀址鸖,根据贝等、取以及】的方法捕捉某一种特定的错误缢跣葱问,但是对多种错误组合的非规范字符的处理工作仍然存在挑战。针对以上方法只能解决特定错误类型的弊端,一些研究者尝试在不进行错误的预先分类的情况下进行的建模,取实现了训练语料的自动采集,从搜索引擎中收集检索的方法。下文语法资源。等针对学生作文文本,经过一系列的研究,总结出了繁体中文中常用的字的形近、音近知识库,为繁体中文正规化提供了宝贵的资源。但简体中文与繁体中文字形、字音上都存在差异,不能直接应用。汉语自动校对的另一个难点是如何选择正确的候选。噪声信道模型可以根据依存关系选择候选。目前,萚分析了中文错别字的错误类

5、型,总结出抽取进行训练,并且将噪声信道模型进行过了扩展,增加了拼音映射模块,取得了较挖掘原文标点在标点校对中的作用应该在汉语标点校对问题得到足够的重视。当前标点校对工作仍然停留在标点预测的层面上,主要的工作在于结合浅层语法特征和深层次的句法特征来建立预测模型。从标点预测角度来说,准确率有所提高,但就标点校对来说,如何结合原文标点信息提高标点校对的准确率是标点校对的一个重点问题。本文主要研究内容针对汉语网络意见文本中存在的不规范行为,本文在统计方法的框架下,研本文研究分为如下四个部分:最后是本文的结论。引言有重要的作用。面进行对比,建立可信度模型,选取可信度较高的标点位置,从而完成标点位置校对任

6、务。然后,结合有效的语言学特征及标点位置信息进行标点符号序列标注,将预测标点与原文标点进行对比打分,选择分值较高的标点,从而完成标点自动校对任务。实验结果表明,引入原文标点信息对于标点预测及校对研究都具有积极的作用。绍本章实验数据及结果说明。节为本章小结。汉语意见文本标点错误分析见文本标点误用分布情况,并分析了汉语意见文本中标点的使用特点。三个方面:号出现冗余。太好”中的逗号位置上 应该使用顿 号,因为像素和信号属于并列关系。太好”结尾缺失句号。表给出了语料库中三种标点错误的分布情表汉语意见文本标点错误分布 平均每个句子的错误标点为。此外,三种标点错误中,标点缺失最为普遍,表标点位置错误分布模

7、块:论结尾位置添加一个句末点号。将原文中标点符号位置的可信度与系统预测的标唬疊5溃疢表汉语标点符号标注集位置定义文本开始词标点位置预测与校对贑的标点位置预测行标点符号位置预测。 珻是一种机器学习方法,在自不同的预测问题,本文仅讨论其在标注问题中的应用。黑龙江大学硕士学位论文弧璌表示。 首先,本文在利用多层次组合特征进行标点位置预测的基础上,从原文标点符号的存在形式上得到启示,充分利用语料库中原作者书写标点时的动机。简单来说,标点符号的作用有两个,其一是表示句子停顿,其二是辅助句子完成情感表达,在网络意见文本中,为了追求简单方便,标点符号的第二个作用被严重忽视,第一个作用也被弱化,但标点冗余现象并不严重,因此可以认为,原文书写者在用标点符号表示停顿时,所使用的标点符号虽然准确率低,但标注标点的位置是非常可信的。标点缺失问题在每条评论的结尾位置最为严重,本文在原文的每条评论末尾都标记一个标点位置,对于原文中存在标点的位置和本文添加的句末标点位置。扛霰甑鉙“是 图标点位置校对算法 最后,本文将此组标点预测的结果作为最终的标点校对的结果。算公式分别见公式凸。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报