1、一篇文章的每个词都是通过 “ 以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语LDA概述这个概率公式可以用矩阵表示:LDA应用场景u检索、图像分类、文本分类、用户评论的主题词抽取、做 feature、降维等u LDA 在广告系统中做文本语义相似度的计算uLDA inference 出来的 topic 用在了文本分类器中做 feature, 可以显著的提升分类器的 precission/recallu用 lda根据 cookie做 user group,然后当 feature用,效果挺好LDA原理深入浅出LDA原理深入浅出LDA背后的数学知识LDA背后的数学知识LDA背后的数学知识
2、所谓的共轭,只是我们选取 (choose)一个函数作为似然函数 (likelihood function)的 prior probability distribution,使得后验分布函数 注释 (posterior distributions)和先验分布函数形式一致。比如 Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布 (Dirichlet分布)是多项式分布的共轭先验概率分布LDA背后的数学知识共轭先验:在贝叶斯统计理论中,如果某个随机变量 的后验概率 p(|x)和他的先验概率p()属于同一个分布簇的,那么称 p(|x)和 p()为共轭分布,同时,也称 p()为似然函数 p(x|
3、)的共轭先验。简言之, 共轭 就是我俩天生一对。我们后面会看到,多项分布的先验概率分布和其后验概率分布就是共轭的。还是抛硬币的实验,假设抛了 5次硬币,出现了 3次正面,你根据极大似然估计得出,抛一次硬币出现正面的概率是 0.6。LDA背后的数学知识然后你就会想到,哦,也许实际的概率是满足一定的分布的,我们实际实验的观测值得到的结果总是出自这个分布,一般都在最大值附近出现,比如 0.5。因此,人们引入了概率分布的先验概率:好,假设你做了一组观测实验,我们可以通过上面定义的后验概率计算公式计算根据这组观测得到的后验概率,换言之,你调整了抛一次硬币出现正面的概率的分布,或者说分布的分布。好,下面问
4、题来了,我怎么知道 (假设 )先验概率分布呢,这是个好问题,实际上可以任何种类的概率分布 ?选择权在我们手中,既然可以选择任何种类的概率分布,我们干脆选一个性质好点的,容易计算的分布LDA背后的数学知识Beta分布形态各异,可以是凹的、凸的、单调上升的、单调下降的;可以是曲线也可以是直线,而均匀分布也是特殊的 Beta分布。由于 Beta 分布能够拟合如此之多的形状,因此它在统计数据拟合中被广泛使用。LDA背后的数学知识还是上面抛硬币的例子,可以得到: (其中 X是 5次抛硬币试验中出现三次的观测事件 )贝叶斯全概率公式再计算后验概率:LDA背后的数学知识上面讨论了二维的情况,也就是只有两个参
5、数 (抛硬币出现正面的概率和抛硬币出现反面的概率 ),他们相加为 1,如果有多个参数呢? (比如,掷一次骰子每个面出现的概率 )。这个时候使用同样的过程使用的就是 Dirichlet Distribution。LDA背后的数学知识LDA主题分析模型LDA详细说明LDA详细说明LDA详细说明LDA详细说明怎么样很保证推荐的粒度从而达到精准推荐呢?LDA在工业界的应用LDA在工业界的应用LDA在工业界的应用LDA在工业界的应用LDA在工业界的应用LDA简答代码示例通过游戏来重新认识数学的魅力有一天你被魔鬼撒旦抓走了,撒旦说: ” 你们人类很聪明,而我是很仁慈的,和你玩一个游戏,赢了就可以走,否则把
6、灵魂出卖给我。游戏的规则很简单, 我有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个 0,1之间的随机数,我现在按 10下,我手上有 10个数,你猜第 7大的数是什么,偏离不超过 0.01就算对。 “ 你应该怎么猜呢?通过游戏来重新认识数学的魅力然而即便如此,我们能做到一次猜中的概率也不高,很不幸,你第一次没有猜中,魔鬼微笑着说: “ 我再仁慈一点,再给你一个机会, 你按 5下这个机器,你就得到了 5个 0,1之间的随机数,然后我可以告诉你这 5个数中的每一个,和我的第 7大的数相比,谁大谁小,然后你继续猜我手头的第 7大的数是多少 。 ” 这时候我们应该怎么猜测呢?解答通过游戏来重新认识数学的魅力很幸运的,你这次猜中了,魔鬼开始甩赖了: 这个游戏对你来说太简单了,我要加大点难度,我们重新来一次,我按魔盒 20下生成 20个随机数,你同时给我猜第 7大和第 13大的数是什么,这时候应该如何猜测呢?通过游戏来重新认识数学的魅力通过游戏来重新认识数学的魅力