1、情报学专业毕业论文 精品论文 基于神经网络的文本挖掘在专利自动分类中的研究与应用关键词:文本挖掘 自动分类 径向基函数神经网络 专利数据库摘要:专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构
2、化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 IPC 类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TFIDF)计算特征词在向量空间模型(VSM)中的
3、权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTFIDF 算法)。 在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,测试平均 F1 值在 70以上。正文内容专利信息作为重要的技术情报源,记载了人类
4、社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模
5、型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 IPC 类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TFIDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTFIDF 算法)。 在分类模型构建过程中,采用径向基函数神经网络(R
6、BFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,测试平均 F1 值在 70以上。专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方
7、法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 IPC 类别描述本身信息中的词添加到现有的词典中,
8、进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TFIDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTFIDF 算法)。 在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将
9、其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,测试平均 F1 值在 70以上。专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利
10、信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 IPC 类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TFIDF)计算特
11、征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTFIDF 算法)。 在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,测试平均 F1 值在 70以上。专利信息作为重要
12、的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要
13、包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 IPC 类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TFIDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTFIDF 算法)。 在分类模型构建过程中,采
14、用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,测试平均 F1 值在 70以上。专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用
15、手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 IPC 类别描述本身信息中
16、的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TFIDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTFIDF 算法)。 在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训
17、练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,测试平均 F1 值在 70以上。专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本
18、所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 IPC 类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。最后,采用经典的权重计算
19、公式(TFIDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTFIDF 算法)。 在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,测试平均 F1 值在 7
20、0以上。专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自
21、动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 IPC 类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TFIDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTFIDF 算法)。
22、在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,测试平均 F1 值在 70以上。专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然
23、而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 I
24、PC 类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TFIDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTFIDF 算法)。 在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然
25、后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,测试平均 F1 值在 70以上。专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题
26、、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 IPC 类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。
27、最后,采用经典的权重计算公式(TFIDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTFIDF 算法)。 在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,
28、测试平均 F1 值在 70以上。专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。 专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RB
29、FNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。 在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将 IPC 类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益 IG 和互信息 Ml 对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TFIDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(
30、PTFIDF 算法)。 在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过 K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用 RBFNN 分类器在专利文本自动分类中具有较理想的性能,测试平均 F1 值在 70以上。特别提醒 :正文内容由 PDF 文件转码生成,如您电脑未有相应转换码,则无法显示正文内容,请您下载相应软件,下载地址为 http:/ 。如还不能显示,可以联系我
31、 q q 1627550258 ,提供原格式文档。“垐垯櫃 换烫梯葺铑?endstreamendobj2x 滌?U 閩 AZ箾 FTP 鈦X 飼?狛P? 燚?琯嫼 b?袍*甒?颙嫯?4)=r 宵?i?j 彺帖 B3 锝檡骹笪 yLrQ#?0 鯖 l 壛枒l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛渓?擗#?“?# 綫 G 刿#K 芿$?7. 耟?Wa 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 皗 E|?pDb 癳$Fb 癳$Fb癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$F?責鯻 0 橔 C,f 薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵秾腵薍秾腵%?秾腵薍秾腵薍秾腵薍秾腵薍