收藏 分享(赏)

基于positive和unlabeled样本的半监督分类研究.doc

上传人:cjc2202537 文档编号:1526889 上传时间:2018-07-25 格式:DOC 页数:40 大小:72.50KB
下载 相关 举报
基于positive和unlabeled样本的半监督分类研究.doc_第1页
第1页 / 共40页
基于positive和unlabeled样本的半监督分类研究.doc_第2页
第2页 / 共40页
基于positive和unlabeled样本的半监督分类研究.doc_第3页
第3页 / 共40页
基于positive和unlabeled样本的半监督分类研究.doc_第4页
第4页 / 共40页
基于positive和unlabeled样本的半监督分类研究.doc_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、计算机应用技术专业毕业论文 精品论文 基于 positive和unlabeled样本的半监督分类研究关键词:文本分类 信息熵 主动学习 情感分类 机器学习 半监督分类摘要:随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如 Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标

2、注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研

3、究在仅有 Positive样本或者少量训练样本的情况下,如何通过对 Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive和 unlabeled样本,结合 EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 EM极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标

4、样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为

5、文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。正文内容随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标

6、注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有 Positive样本或者少量训练样本的情况下,如何通过对 Unlabeled样本数据的有效学习

7、,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive和 unlabeled样本,结合 EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 EM极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就

8、越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。随着网络的迅速发展,文本信息的数量也日益增

9、加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体

10、系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有 Positive样本或者少量训练样本的情况下,如何通过对 Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。 本文主要做了以下几

11、方面工作: 1.研究贝叶斯模型标注 positive和 unlabeled样本,结合 EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 EM极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处

12、理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的

13、训练构建合理的分类器。提出了一些有效的方法,如Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标

14、注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有 Positive样本或者少量训练样本的情况下,如何通过对 Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive和 unlabeled样本,结合 EM迭代算法,估计未带标签

15、的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 EM极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是

16、否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如Rocchio algorithm, ,the naive Bay

17、esian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有

18、类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有 Positive样本或者少量训练样本的情况下,如何通过对 Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive和 unlabeled样本,结合 EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 EM极大似然估计过程中的性能计算。 2.采

19、用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。 4.结合最大熵和

20、机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机

21、器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的

22、领域被称为半监督学习。本文主要以此为思想基础,研究在仅有 Positive样本或者少量训练样本的情况下,如何通过对 Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive和 unlabeled样本,结合 EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 EM极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性

23、的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词

24、,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进

25、行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有 Positive样本或者少量训练样本的情况下,如何通过

26、对 Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive和 unlabeled样本,结合 EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 EM极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况

27、,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。随

28、着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精

29、度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有 Positive样本或者少量训练样本的情况下,如何通过对 Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进

30、行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive和 unlabeled样本,结合 EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 EM极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵

31、值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预

32、先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练

33、样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有 Positive样本或者少量训练样本的情况下,如何通过对 Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive和 unlabele

34、d样本,结合 EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 EM极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提

35、出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如Rocchio algor

36、ithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混

37、合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有 Positive样本或者少量训练样本的情况下,如何通过对 Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive和 unlabeled样本,结合 EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 E

38、M极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文

39、档,完善分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如Rocchio algorithm, ,the naive Bayesian method(NB),support vector mach

40、ines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于

41、传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有 Positive样本或者少量训练样本的情况下,如何通过对 Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive和 unlabeled样本,结合 EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及 EM极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。

42、在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS情感分类中的一个应用。以词语的语义倾向识别为基

43、础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建 SVM分类器进行 BBS文档的情感分类。特别提醒 :正文内容由 PDF文件转码生成,如您电脑未有相应转换码,则无法显示正文内容,请您下载相应软件,下载地址为 http:/ 。如还不能显示,可以联系我 q q 1627550258 ,提供原格式文档。“垐垯櫃 换烫梯葺铑?endstreamendobj2x滌?U 閩 AZ箾 FTP 鈦X飼?狛P? 燚?琯嫼 b?袍*甒?颙嫯?4)=r 宵?i?j 彺帖 B3锝檡骹笪 yLrQ#?0鯖 l壛枒l壛枒 l壛枒 l壛枒 l壛枒 l壛枒 l壛枒 l壛枒 l壛枒 l壛枒 l壛枒 l壛渓?擗#?“?# 綫 G刿#K 芿$?7. 耟?Wa 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 皗 E|?pDb癳$Fb 癳$Fb癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb癳$Fb癳$F?責鯻 0橔 C,f薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵秾腵薍秾腵%?秾腵薍秾腵薍

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 大学论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报