1、计算机应用技术专业毕业论文 精品论文 基于论坛数据的问答挖掘关键词:论坛数据 问答挖掘 信息抽取 数据挖掘摘要:论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑
2、了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。 在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。正文内容论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统
3、的性能、扩充聊天机器人的知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方
4、法。 在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回
5、率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。 在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方
6、法在大规模论坛数据上同样具有有效性。论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并
7、将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。 在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括
8、两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。 在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显
9、优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方
10、法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。 在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。论坛中含有大量有价值的、由用户讨论生成的数据,从
11、中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始
12、值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。 在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛
13、数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。 在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之
14、后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备
15、选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。 在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的
16、知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。 在小规模人工标注的
17、论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。 本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信
18、息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。 在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的 MRR、MAP 等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样
19、具有有效性。特别提醒 :正文内容由 PDF 文件转码生成,如您电脑未有相应转换码,则无法显示正文内容,请您下载相应软件,下载地址为 http:/ 。如还不能显示,可以联系我 q q 1627550258 ,提供原格式文档。“垐垯櫃 换烫梯葺铑?endstreamendobj2x 滌?U 閩 AZ箾 FTP 鈦X 飼?狛P? 燚?琯嫼 b?袍*甒?颙嫯?4)=r 宵?i?j 彺帖 B3 锝檡骹笪 yLrQ#?0 鯖 l 壛枒l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛渓?擗#?“?# 綫 G 刿#K 芿$?7. 耟?Wa 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 皗 E|?pDb 癳$Fb 癳$Fb癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$F?責鯻 0 橔 C,f 薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵秾腵薍秾腵%?秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍