1、关键词抽取方法研究,刘知远(清华大学) 2018年11月20日,报告摘要,关键词抽取简介 关键词抽取方法 关键词抽取的应用 展望,问题描述,关键词自动抽取 Automatic Keyphrase Extraction 定义:自动从文档中抽取关键词作为文档摘要 特点: 多个词或短语 一般来自文档内容,关键词抽取的典型应用场景,关键词标注方式,关键词标注方法,有监督方法,转化为二分类问题 判断某个候选关键词是否为关键词 Frank 1999采用朴素贝叶斯分类器 Turney 2000采用C4.5决策树分类器 转化为多分类多标签问题 传统文本分类方法 受限词表作为候选关键词集合(分类标签),无监督方
2、法,词频 基于TFIDF及其变形对候选关键词进行排序 图方法 Rada 2004: PageRank TextRank Huang 2006: 复杂网络统计性质 Litvak and Last 2007: HITS,词频方法,Term-frequency inverse document-frequency (TFIDF) TF: the importance of the term within the document IDF: the informativeness of the term in the document set,TFIDF = 2 ,TextRank,R(w): w的P
3、ageRank值 O(w): w的出度 e( , ): 边上的权重 V: 节点集合 : 平滑因子,文献综述-无监督方法小结,研究问题,关键词应当具备以下特点 相关性,可读性,覆盖性 关键词与文档主题保持一致性 如何在关键词抽取中考虑对文档主题的覆盖性 一个文档往往有多个主题 现有方法没有提供机制对主题进行较好覆盖 如何解决文档与关键词间的词汇差异问题 许多关键词在文档中频度较低、甚至没有出现 “machine transliteration” vs “machine translation” “iPad” vs “Apple”,研究思路,对文档主题结构进行建模,并用于提高关键词抽取的覆盖性 利
4、用文档内部信息构造文档主题 利用文档外部信息构造文档主题 结合文档内部、外部信息 利用无标注文档集中的文档与关键词的主题一致性,弥合文档与关键词的词汇差异,研究内容,通过文档词聚类构建主题进行关键词抽取 利用隐含主题构建主题进行关键词抽取 综合利用隐含主题和文档结构进行关键词抽取 利用机器翻译弥合词汇差异进行关键词抽取 关键词抽取的典型应用,通过文档词聚类构建主题 进行关键词抽取,研究动机与方法,动机:利用文档内部信息对文档主题进行建模 方法 在文档中选取候选关键词 计算候选关键词之间的语义相似度 对文档中的词进行聚类 在每个聚类中选取聚类中心(exemplar)扩展出关键词,算法细节,候选关
5、键词相似度度量 基于同现关系的相似度 基于维基百科的相似度 Cosine,Euclid,PMI,NGD 聚类方法选取 层次聚类(hierarchical clustering) 谱聚类(spectral clustering) 消息传递聚类(Affinity Propagation),实验结果,数据集合:论文摘要 参数影响,实验结果,与其他算法的比较 举例,小结,提出了利用聚类对文档内部主题结构建模的关键词抽取算法 对比了不同的相似度度量算法、聚类算法 较好地实现推荐关键词的覆盖性 问题 不同聚类个数较大地影响关键词抽取效果,Zhiyuan Liu, Peng Li, Yabin Zheng,
6、 Maosong Sun. Clustering to Find Exemplar Terms for Keyphrase Extraction. The Conference on Empirical Methods in Natural Language Processing (EMNLP), 2009.,通过隐含主题模型构建主题 进行关键词抽取,隐含主题模型,对文档主题进行建模的无监督学习模型 由用户指定隐含主题个数 根据大规模文档集合中学习 每个主题是在词上的分布 每个词和文档都可以表示为主题上的分布 常见隐含主题模型 Latent Semantic Analysis (LSA/LSI
7、) Probabilistic LSA (pLSA) Latent Dirichlet allocation (LDA),隐含主题模型示例,利用隐含主题模型进行关键词抽取,文档的主题分布:(|) 词的主题分布:(|) 通过多种方式度量其语义关系 Cosine similarity KL-divergence = (|) 存在问题 LDA运算复杂度较高,在大规模数据集合上运行速度较慢 解决方案:并行化,或者在线学习,LDA学习算法,Gibbs Sampling,其他位置上的词w的主题分布,该文档其他位置上词的主题分布,隐含主题模型的并行研究,LDA的已有并行算法 Approximate Dist
8、ributed LDA (AD-LDA) Asynchronous LDA(AS-LDA) 主要问题 内存瓶颈:要求主题模型()保存于每台机器内存 通信瓶颈:要求每次迭代机器间都要交互整个主题模型,PLDA+算法,机器分为两种功能: 一部分机器用于维护训练文档 一部分机器用于维护主题模型,PLDA+算法,当网络不稳定时,可能会有部分请求不会被响应,超过一定时间后会被丢弃。我们称平均被丢弃的请求比例为missing ratio 。,实验效果-维基百科(20万词汇),在线学习-Online LDA,基本思想 整个数据集合上的大循环每个文档上的小循环 每次只在一个很小的集合上学习并更新模型 不再返回
9、去看旧的数据 特点 快速 有利于Web随时间变化较快的数据 NIPS 2010 Online Learning for Latent Dirichlet Allocation Deterministic Single-Pass Algorithm for LDA,小结,通过并行或者在线学习可以有效加速LDA学习 将在下部分一并展示利用隐含主题模型进行关键词抽取的效果,Zhiyuan Liu, Yuzhou Zhang, Edward Y. Chang, Maosong Sun. PLDA+: Parallel Latent Dirichlet Allocation with Data Plac
10、ement and Pipeline Processing. ACM Transactions on Intelligent Systems and Technology (ACM TIST), 2010.,综合利用隐含主题模型和文档结构 进行关键词抽取,研究思路,前述工作 LDA:利用隐含主题模型发现文档主题 TextRank:利用文档内部结构信息 综合考虑文档主题和内部结构进行关键词抽取 Topical-PageRank(TPR),研究方法,研究方法, ( )= : ( , ( ( )+(1) , =(|) , probability of word given topic . =(|)
11、, probability of word given topic . =(|)(|) , product of hub and authority.,Candidate Phrases noun phrases (Hulth, 2003)(adjective)*(noun)+ Doc topic distribution (|) for each topic Phrase Score = =1 () P ,研究方法,(a) Topic on “Terrorism”,(b) Topic on “Israel”,(c) Topic on “U.S.”,(d) TPR Result,示例,实验,实
12、验数据 新闻数据: 308 篇,来自DUC2001 论文摘要: 2,000 篇,来自(Hulth, 2003) 评价指标 precision, recall, F-measure = , = , = 2 + binary preference measure (Bpref) = 1 1 ranked higher than mean reciprocal rank (MRR) = 1 1 ,参数影响,新闻数据上LDA主题个数影响(推荐=10个关键词),参数影响,新闻数据上=0.1, 0.3, 0.5, 0.7 and 0.9 的影响,不同偏好参数设置的影响,新闻数据上不同偏好设置的 影响(推荐
13、=10个关键词),与其他方法比较,在论文摘要数据上的比较(=10),与其他方法比较,在论文摘要数据上的比较(=5),与其他方法比较,在新闻数据上, 从1 到 20变化,在论文摘要数据上, 从1 到 10变化,小结,LDA通过文档主题进行关键词抽取,因此取得较TFIDF、TextRank较优的结果 TPR综合了TextRank和LDA的优点,在两个数据集合上都表现出了它的优势 由于TPR可以按照主题推荐关键词,因此可以用于文档可视化,也可以用来进行查询导向(query focused)的关键词抽取,Zhiyuan Liu, Wenyi Huang, Yabin Zheng, Maosong Su
14、n. Automatic Keyphrase Extraction via Topic Decomposition. The Conference on Empirical Methods in Natural Language Processing (EMNLP), 2010.,利用机器翻译模型进行关键词抽取,研究问题,文档和关键词都是对同一事物的描述 主题一致,词汇差异 词汇差异的表现 很多关键词在文档中出现次数不高 有的关键词在文档中根本没有出现(尤其是短文本) 问题 TFIDF、TextRank及其扩展、LDA等方法均没有很好解决词汇差异问题,相关工作,TextRank的扩展Expan
15、dRank 在构建词网时,同时考虑文档的近邻文档 从“文档层次(document level)”利用外部信息 容易引入噪音 LDA 通过主题分布的相似度来对候选关键词排序 从“主题层次(topic level)”利用外部信息 由于主题一般是粗粒度的 倾向于推荐普通词 容易发生主题漂移,研究思路,在“词汇层次(word level)”利用外部信息 文档和关键词是对同一事物的描述 关键词抽取问题翻译问题,翻译,研究方法,构建翻译对(translation pairs) 学习两种语言间词汇的翻译概率(translation probabilities)( | ) 利用SMT中的词对齐(word al
16、ignment)算法 给一个新的文档 计算每个候选关键词的似然概率 = | ( |) 按照候选关键词的值进行排序,研究方法-构建翻译对集合,将文档标题或摘要看作近似用关键词语言写成 大部分文档有标题或摘要信息 将标题/摘要与文档正文形成翻译对 问题 摘要、文档往往较长 直接使用词对齐算法效率较低、效果较差 没有标题/摘要的时候怎么办,研究方法-构建翻译对集合,给定标题和文档,提出两种构建翻译对的办法 采样法(sampling):将较长的文档进行抽样,直到与标题长度一致 基于词在文档中的重要性(TFIDF)进行采样 分割法(split):将较长文档划分为句子,用每句话与标题构成一个翻译对 只有句
17、子与标题之间相似度大于某个阈值才放入训练集,研究方法-构建翻译对集合,当没有标题或摘要,从文档正文中选择重要的句子来与正文构成翻译对 选择文档第一句话 选择与文档最相关的一句话,实验设置,句子对齐算法采用IBM Model-1的工具GIZA+ 在13,702篇中文新闻上进行试验,实验结果,实验结果,实验结果-阈值的影响,实验结果-抽取重要句子构建翻译对,实验结果-关键词生成(keyword Generation),在测试时,只能够根据新闻标题产生关键词,实验结果-关键词生成举例,文档题目:“以军方称伊朗能造核弹 可能据此对伊朗动武”,小结,机器翻译技术可以有效解决词汇差异问题 推荐更符合文档主
18、题的关键词 甚至能够胜任关键词生成任务 标题/摘要与文档能够构建高质量的翻译对 对于新闻文档而言,正文第一句也可以用来构建高质量翻译对,Zhiyuan Liu, Xinxiong Chen, Maosong Sun. A Simple Word Trigger Method for Social Tag Suggestion. EMNLP11 Zhiyuan Liu, Xinxiong Chen, Yabin Zheng, Maosong Sun. Automatic Keyphrase Extraction by Bridging Vocabulary Gap. CoNLL11,典型应用:微
19、博关键词抽取,应用简介,以新浪微博为平台 利用关键词抽取技术获取用户发表微博的关键词 应用前景 发现和建模用户兴趣 为用户之间链接赋予更丰富信息 推荐用户感兴趣的产品、信息和好友等 具有广阔的商业前景,应用界面,关键词抽取举例-我的微博关键词,关键词抽取举例-马少平老师的微博关键词,关键词抽取举例-MSRA的微博关键词,应用使用情况-统计概览(5.25-9.29),小结,系统受到了微博用户的普遍认可 微博关键词抽取系统验证了本文对于基于文档主题结构关键词抽取研究的有效性 不足:交互机制,研究总结,利用文档主题结构对关键词抽取覆盖度的作用进行了深入研究 通过文档内词聚类构建文档主题 通过隐含主题模型构建文档主题 综合考虑隐含主题和文档结构 以文档-关键词主题一致性为基础,提出基于机器翻译模型的算法,解决关键词抽取的词汇差异问题 以该研究为基础的微博关键词抽取系统在新浪微博上取得成功,展望,实现一个高效实用的(中文)关键词抽取系统 关键词抽取在社会标签自动推荐中的应用 解决冷启动问题:新标签、新对象、新用户 关键词抽取在Web数据中的应用 用户兴趣建模和基于内容的推荐系统 趋势检测和分析,谢谢各位老师同学!请提出宝贵意见! E-mail: ,