收藏 分享(赏)

概率主题模型.ppt

上传人:kpmy5893 文档编号:6221996 上传时间:2019-04-02 格式:PPT 页数:20 大小:869.50KB
下载 相关 举报
概率主题模型.ppt_第1页
第1页 / 共20页
概率主题模型.ppt_第2页
第2页 / 共20页
概率主题模型.ppt_第3页
第3页 / 共20页
概率主题模型.ppt_第4页
第4页 / 共20页
概率主题模型.ppt_第5页
第5页 / 共20页
点击查看更多>>
资源描述

1、概率主题模型 Probabilistic Topic Models,靳 婷,目 录,引言 TF-IDF模型 LSI模型(Latent Semantic Index,潜在语义索引) 概率主题模型简介 一元混合模型(Mixture of unigrams) PLSI模型(Probabilistic Latent Semantic Index, 概率潜在语义索引) LDA模型(Latent Dirichlet Allocation) 模型描述 抽取算法,TF-IDF模型,主要思想: 建立一个矩阵|V|*|D|, |V|词典中单词的个数,|D|语料库中文本的 TF:对于每一个词,在所有文本中出现的次数

2、 IDF:包含这个词的文本数的倒数 贡献:不足: 不对语义进行识别 存储空间、计算量非常大,长度不固定的文本,长度固定的矩阵,LSI模型(Latent Semantic Index,潜在语义索引),奇异值分解:,对角矩阵,行代表一个词,列代表一个文档,概率主题模型,主要思想 文档是若干主题的混合分布 每个主题又是一个关于单词的概率分布,一元混合模型(Mixture of unigrams),一元模型:每个文本的词语都是独立地从一个多项式分布产生,简单直观的词频概率模型,没有考虑文本的主题,一元混合模型(Mixture of unigrams),首先选择一个主题z,然后根据条件多项式 独立地生成

3、该文本的N个词语,每个文本的概率为:,这个模型只允许一篇文本有一个主题,p(z)是z的分布,p(w|z)可看作一个k|V|的矩阵,一元混合模型(Mixture of unigrams),V = Film, Music, Tax, Million, Student, Teacher, School,T = Arts, Budgets, Education. k = 3 p(w|z)是37矩阵,若p(w|z)的第1行表示主题Education, 这个主题的文本中Student, Teacher, School的词频会高些,该行的行向量所表示的分布 p(w|z)会在Student, Teacher,

4、 School附近出现峰值 若第2行表示主题Budgets,p(w|z)就会在 TAX,MILLION附近出现峰值 在生成一篇文档前先随机选出p(w|z)的第z行(根据分布p(z));再依次随机选出第z行的w1,w2, wN列(每次选取都根据分布p(w|z)),这就生成了文本中的所有单词,PLSI模型(Probabilistic Latent Semantic Index, 概率潜在语义索引),放弃了LSI所用的矩阵转换的方法,采用生成模型 引入了“潜在主题”一个随机生成过程当中的潜在变量,PLSI模型(续),PLSI 是一个k*|D|矩阵 是先验概率:只建立在已见的训练集的基础上,训练集之外

5、的未见文本,没有一个合适的先验概率 训练样本增加,矩阵的大小也线性增加,存在过度拟合问题 离散,不同主题之间在概率上是相互独立的,LDA模型(Latent Dirichlet Allocation),非监督机器学习 识别隐含的主题信息 Dirichlet概率分布,连续分布,可以给未知文本分配属于某个主题集的概率,产生一个主题的集合,LDA模型(续),假设有 个主题,所给文本中的第 个词汇 可以表示如下:,潜在变量,表明第 个词汇记号 取自该主题,词汇 记号属于主题 的概率,给出主题 属于当前文本的概率,LDA模型(续),表示对于主题 , 个词汇上的多项分布 表示对于文本 , 个主题上的多项分布

6、,LDA模型(续),文本上的主题分布,主 题,主题上的单词分布,单 词,文 本,LDA模型(续),LDA概率主题模型生成文本的过程: 根据泊松分布 得到文本的单词数目 根据Dirichlet分布 得到该文本的一个主题分布概率向量 对于该文本 个单词中的每一个单词 从 的多项式分布随机选择一个主题 从主题 的多项式条件概率分布选择一个单词作为,LDA模型(续),Choose parameter p(); For each of the N words w: Choose a topic z p(z|); Choose a word w p(w|z); 其中是一个1k的随机行向量,p()是的分布,

7、它的具体函数形式就是Dirichlet分布,这一分布保证的k个分量 _1,_2,_k都取连续的非负值,且_1 + _2 + + _k = 1 z_n是离散随机变量,在主题T中取k个离散值,p(z|)是给定时z的条件分布,它的具体函数形式很简单,就是把直接拿来作为概率值 p(z = i|) = _i,也就是说z取第 1,2,k个主题的概率分别是_1,_2,_k w_n是离散随机变量,在词汇表V中取|V|个离散值,p(w|z)是给定z_n时 w的条件分布,看作k|V|的矩阵,LDA模型(续)-生成过程,先随机生成一个1k的向量(根据Dirichlet分布p()) 然后随机选取p(w|z)的第z_1行(根据分布p(z|)) 接着随机选取z_1行的w_1列(根据分布p(w|z = z_1)),同样的方法依次选出z_2,w_2,z_N,w_N,Mixture of unigram, PLSI, LDA,EM(Expectation Maximization)算法,期望最大化算法,分为两步 E-Step:estimate the expected values M-Step:re-estimate parameters 迭代使用EM步骤,直至收敛。,EM(Expectation Maximization)算法,E-Step:对每一篇文档,计算参数 , M-Step:最大化,求出此时的,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报