1、 密级:公开位师论文作者签名:掣丝里关于学位论文使用授权的声明本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。苈畚脑诮饷芎笥袷卮斯娑基于加权分布的改进方法参考文献 甇 籨山东大学硕士学位论文多文档摘要技术能够识别并筛选出许多篇同主题的文档,剔除繁琐、冗余的信息,汇总用户感兴趣的信息,提供一篇全面、简洁的摘要信息】。多文档摘要技术可以提供用户关于特定主题的主干信息,使用户快速的了解特定
2、主题,准确的定位感兴趣的内容,减少了阅读时间,从而提高检索效率,具有很高的实用价值。对象可以是语音流序列、网络动态数据,以及书面的静态文本【。这种预处理过程在很多领域中都有着很重要的应用,比如首语消解、语言建模、文本解析、文本导航、文摘自动生成、问答系统以及信息提取等。文本分割的初衷就是划分出一篇给定文本中每一个独立的主题之间的边界而不用花费时间处理文本本身的内部结构就可以达到分析文本的目标。作为数据挖掘方向中的一个重要技术之一,文本分割技术已经得到了广泛的应用,并有助于促进信息检索、多文摘自动生成等相关领域的发展。山东大学硕士学位论文文本分割的研究现状题片段内。为了分割文本或者提高分割性能,
3、在对语料库进行统计分析的基础上,用的概率统计模型有刻岢隽薼 方法用来确定文本山东大学硕士学位论文】提出了一种基于统计模型的方和甊】提出了一种基于层次聚类法的线性割的文本首先经过去标点符号、断词、停用词处理等预处理步骤,然后将文本表示为向量,每一维是一个句子,维数是句子的个数,每个句子也是一个向量,用该句子内单词对应的标记表示,维数是最长句子内单词的个数,接着计算该文本的句子相似矩阵,为了降低时间复杂度,作者设置了一个块大小,仅仅计算最相邻的几个句子之间的相似性,构造句子相似矩阵的一部分,从而有效的提高了效率,最后用聚类算法将句子一层一层的不断进行合并,最后根据分段的数目能够找出最优的分割方法,
4、但是该方法存在一个非常较大的缺陷,即必须事先知道主题的个数,才能根据分段数量在最后的层次聚类树中划分出最优的分割结果,但是,我们并不总是知道文本内主题的个数,甚至不知道文本的类型,因此这种方法有一定的局限性。近几年,主题模型开始应用在文本分割领域,边界,从而实现文本的主题分割。虷寻找文本的最大概率分割,他们使用贝叶斯公式定义了一部分相邻文本是描述的是同一个主题的概率,并将待分割文本抽象为带权有向图模型,每一个潜在的分割点抽象为图中的每个节点,潜在的分割点之间的边是文本中对应的片段,边的权值通过定义的概率模型计算得出,最后求最优分割的问题就转换为了在这个带权有向图中求指定的两个点之间的最短路径的
5、问题,作者使用的是动态规划算法,不仅获得了较好的分割效果,而且因为使用动态规划算法,时间复杂度也不是很高。虷虷文本主题分割的方法也可以分为两类:有监督方法和无监督方法,有监督的方法具有较好的分割准确率,但他们需要大量的训练数据,这在一定条件上限制了有监督方法的使用和推广;而无监督方法分割前不需要特定的训练语料来训练模型参数,输入仅仅为待分割的文本,与文本的类型、所在领域无关,相较于有监督的方法,使用的门槛较低,因此使用范围相对较广,而且一些无监督的方法也取得了较好的分割准确度。在目前的无监督方法中,相邻段之间的词汇相似度是应用最多的一种方法,如果相邻段之间相似性较高,则很可能是属于同一个主题,
6、如果相似度低于设定的阈值,则很可能是属于不同的主题,此时可以判断出主题边界。根据这一思路,出现了很多基于词汇相似度的方法,并且获得了较好的分割效果。基于词汇集聚思想的文本分割方法是使用较早并且发展比较成熟的线性文本分割方法,分割过程中,分割的主要依据是假定相似或有关联的词汇倾向于出现在同一主题片段内,因为词汇集聚思想关心的是文本中的词汇是如何联系的,在语法上表现为词间系统或非系统的语义联系,在词汇上表现为词汇的简单重复或词汇的变形重复,语法上的集聚通过文本中的语法关系如省略符号和连词表现出来,词汇上的集聚通过文本内单词与单词之间的语义关系表现出来,识别文本内的语义关系可以有效地帮助识别文本的概
7、念上的结构,因此,通过词汇集聚的思想进行文本分割可以分为两大类:只考虑词汇的重复、只考虑词间系统和非系统间的语义联系以及综合考虑词汇和语法这两个方面。目前很多的文本分割算法都是基于词汇的重复,这里所用的词汇的重复不仅只包含简单的相同词汇的重复,也包括词汇的变形重复和同义词的重复,例如,之间的词汇重复度,也可以理解为计算的是该窗口所覆盖的句子描述的是同一个主题的可能性的大小,在窗口滑动到结尾的时候,会得到一个相邻文本相似性的概率值曲线图,经过平滑处理后,在相邻处概率值下降较大的点即为分割点,此时或者设置比较的阈值,或者知道文本内主题的个数,才能更好地找到主题之间的边界。根据贝叶斯公式可以得出给定一篇文本,确定个分割状态的概率为如下公式【】:山东大学硕士学位论文皇曼曼笪曼皇曼曼曼曼皇曼曼蔓曼量量量曼舅苣曼曼皇鼍曼皇曼蔓曼曼皇曼曼曼曼蔓曼曼曼曼曼皇曼量曼皇曼曼鼍糽山东大学硕士学位论文的描述。虷有如下的推导关系】:一啵,其中,山东大学硕士学位论文到待分割文本的一个最大概率分割蜃钚鄯指:山东大学硕士学位论文 】;山东大学硕士学位论文曼曼曼曼曼曼曼曼曼一乃基于段间不相似度的改进方法虷虷。巷簧芻秘警垂揣唷!芿詉,