1、第16讲 Neural IR 基于深度神经网络的IR模型,1,2017/10/09,提纲,2,上一讲回顾 深度神经网络(DNN)基础词向量Neural IR Model,提纲,3,上一讲回顾 深度神经网络(DNN)基础词向量Neural IR Model,4,上一讲回顾(待),4,提纲,5,上一讲回顾 深度神经网络(DNN)基础词向量Neural IR Model,神经元,最简单的神经网络神经元对应的计算如下: , = =( =1 3 +) 其中和为需要学习的网络参数,为激活函数。,6,激活函数,激活函数:主要作用是引入非线性,增强网络的表示能力。Sigmoid函数 = 1 1+ , (0,1
2、)Tanh函数 = + , (1,1) ReLU函数 = , 0 0, 0 , 0, +),7,激活函数,上述激活函数特点 Sigmoid:两端饱和区梯度极小;输出不以0为中心;指数函数计算代价大。 Tanh:两端饱和区梯度极小;输出以0为中心;指数函数计算代价大。 ReLU:在激活值大于0时不存在梯度极小的情况;输出不以0为中心;计算代价小;收敛速度快。除了上述三种激活函数,还有其它一些激活函数,如Maxout,Leaky ReLU,ELU等。激活函数对参数的学习过程影响较大,需要根据情况适当选择。,8,神经元组合成为神经网络,最简单的多层神经网络多层感知机 (Multi-Layer Per
3、ceptron, 简称MLP)由多个神经元组成,一些神经元的输出作为另一些神经元的输入。,9,Softmax归一化,Softmax归一化是在使用神经网络进行分类时常用的方法,对于分类问题,通常需要给出可能属于每一个类别的概率,即需要输出介于0和1之间,且加和为1,对于未归一化输出( 1 , 2 , ),具体计算如下: = =1 = 1 , 2 , 即为归一化后的输出,满足值介于0和1之间且求和为1的要求。,10,参数的学习,损失函数为了衡量模型预测的效果,通常会定义一个关于模型预测y与实际标签y的函数 L(y, y) ,注意到 y 是模型参数 的一个表达式,通过最小化 L(y, y) 可以得到
4、模型参数 的一组值使得模型的预测 y 能够足够接近实际标签 y 。例:交叉熵损失交叉熵损失是应用最为广泛的一种损失函数,即用训练数据与模型间的交叉熵来衡量预测分布于实际分布的差距,它的形式如下: = , log 2 (|) 交叉熵损失与负对数似然是等价的; 取高斯分布就得到均方误差。,11,参数的学习,目标:学习一组网络参数,使得预测 y 与实际标签y的误差 (损失)最小。 BP算法:即反向传播算法,是学习神经网络参数的一个重要方法,给定一个样本 (x, y),包含如下两个过程: 前向计算 (forward):根据输入 x,计算网络的输出 y; 反向计算 (backward):计算网络预测 y
5、 与标签 y 之间的误差 (损失) 关于网络各参数的梯度;主要应用求导的链式法则。 梯度下降算法:BP算法只是得到了误差 (损失) 关于网络参数的梯度,而梯度下降算法定义了网络参数的更新方式,如SGD:其它常见的参数更新方式:Momentum,Adam,Adagrad,RMSprop等 在实际应用中,一般是同时使用一组样本 (一个batch) 来对网络参数进行更新。 另外还有一些二阶的方法:牛顿法,共轭梯度,BFGS,12,=- J() ,正则化,为什么需要正则化? 一般的学习算法都是通过最小化训练集上损失函数来得到的,若训练数据的数据量较小或者分布不均,对于容量较大的模型而言,则学习到的模型
6、会过度拟合训练数据分布而与真实分布有一定的差距,所以需要正则化来防止学习到的模型过度拟合训练数据分布,从而增强模型的泛化能力。若想要进一步了解,请参考偏差-方差分解理论。 L1与L2正则机器学习中常用的正则方法,通过在损失函数中增加模型参数的1-范数或2范数项来约束模型参数的范围: 一般认为L1正则会使得模型参数的某些维度变为0,因此具有特征选择的作用;,13,正则化,L1与L2正则图解:L1正则(右),L2正则(左)图中同一个蓝色环上的损失相同,中心点损失最小;红色环上模相等,原点处模最小,为0;黑色点为解,在黑色点处损失的减小与模的增加达到临界点,即损失的继续减小不能弥补模增加的部分,导致
7、它们的和反而增加了。,14,正则化,DNN中常用的正则化方法 数据集增强:通过对已有的数据样本做特定的变换来构造新的样本。 噪声鲁棒性:通过往输入、权重或者标签中注入噪声来达到正则化的效果。 提前终止:通过引入验证集,训练到验证集上误差达到最小时,则停止训练。 参数共享:通过使网络的不同部分共享参数达到正则化效果,参数共享减小了模型的假设空间。 Bagging集成方法:训练若干模型,然后由这些模型对输出进行表决,以此来减小泛化误差。 Dropout:通过对神经元以一定概率进行丢弃达到正则化效果,通常认为是Bagging的一种近似。,15,卷积神经网络 (CNN),卷积神经网络 (CNN):用来
8、专门处理具有类似网络结构数据的神经网络;卷积网络至少有一层的结构使用了卷积运算。 卷积运算: , = , = , (,) 其中 为二维输入, 对应的卷积核 也为二维;对于高维输入,计算类似。 卷积网络的特点: 稀疏连接:卷积核的参数规模远小于输入的规模,可以用于探索一些小而有意义的特征;与全连接相比,稀疏连接减小了网络的参数规模。 参数共享:不同输入共享相同的参数,进一步减小了网络的参数规模。,16,卷积神经网络 (CNN),卷积图解输入:32x32x3;卷积核:5x5x3,1个;输出:28x28x1,步长:1,17,卷积神经网络 (CNN),池化(Pooling):池化的总体思想是使用某一位
9、置的相邻输出的总体统计特征来代替网络在该位置的输出。常见池化方式: max-pooling, min-pooling, average-pooling, sum-pooling。以下用max-pooling举例,18,卷积神经网络 (CNN),Max-pooling图解卷积层的三个过程: 卷积:卷积核对输入的线性变换 激活:激活函数对卷积核输出的非线性变换 池化:对激活输出进行进一步调整 两个参数:filter的大小,stride:filter移动的步长,19,池化的特点,近似不变性:当输入做少量平移时,输出不会发生变化; 近似不变性使得网络更多地关注某些特征是否出现而不关心其具体的位置; 由
10、于近似不变性,网络能够容忍一些微小的噪声或者扰动。卷积和池化带来的好处主要有:减少参数,减少噪声,20,循环神经网络 (RNN),循环神经网络 (RNN):一种用来专门处理序列数据的神经网络。一个序列当前的输出与前面的输出有关 网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出在实践中,为了降低复杂性往往假设当前的状态只与前面的几个状态相关,21,循环神经网络 (RNN),示例:一个简单的多对多(many-to-many)结构,如语言模型。对于语言模型而言,模型的任务是根据前 t-1 个单
11、词( 0 1 )预测第 t 个单词( 1 ,亦即 t ),将预测看作一个分类任务,则 1 为一个|V| 维向量,表示取各个词的未归一化概率,则模型的参数可以采用最大似然的方法进行估计。RNN示例,22,循环神经网络 (RNN),假定输出采用进行归一化,则网络对应的计算如下: = tanh + (1) + () () = () () = 负对数似然函数(损失函数)如下: 1 , , 1 , = () = () | 1 , 网络的训练可以通过梯度下降法最小化上述损失函数,梯度的计算可以采用反向传播(BP)算法。 可以看到,展开的RNN事实上可以看作一般的非循环神经网络,只是它的参数是共享的。,23
12、,循环神经网络 (RNN),一些常见的RNN结构:,24,循环神经网络 (RNN),梯度消失与爆炸:考虑一个不包含激活函数与输入的非常简单的RNN,它的计算如下 : () = (1) = ( ) (0) 对进行如下特征分解: = () 可以进一步简化为: () = (0) 可以看到,当 t 较大时,绝对值大于1的特征值对应的部分将会迅速增大,而绝对值小于1的特征值对应的部分将会迅速减小,分别对应了梯度爆炸与梯度消失。,25,循环神经网络 (RNN),LSTM:如前所述,RNN存在梯度爆炸与梯度消失的问题,这样网络无法处理长距离的依赖;对于梯度爆炸,可以使用梯度裁剪的方式解决;对于梯度消失的问题
13、,LSTM通过有选择地相加的方式将状态直接传到下一单元来减轻梯度消失的问题。LSTM结构: () = + 1 () = + 1 () = + 1 () = + 1 () = () + (1) () () = ( () ) () 其中与分别表示sigmoid和tanh激活函数,26,循环神经网络 (RNN), () :记忆单元,用于记忆历史信息 () :候选记忆,向记忆单元注入当前时间步的信息 () :输入门,控制候选记忆 () 输入的权重 () :遗忘门,控制丢弃旧记忆 (1) 的权重 () :输出门,控制记忆单元输出的权重,27,循环神经网络 (RNN),若忽略遗忘门控信号,普通RNN与LS
14、TM信息流如下:可以看到,若 f 对输入的梯度很小,则经过几个单元的反向传播后,梯度就消失了;LSTM通过将当前状态通过相加的方式直接传递到下一个单元,减轻了梯度消失的问题。 而遗忘门的作用则是让网络自行学习是否需要记住很早以前的状态信息;除了LSTM结构,还有一些其它门控结构来处理RNN中的梯度消失问题,如GRU,请同学们自行查询相关资料。,28,DNN基础:总结,DNN(深度神经网络):一种多层的神经网络,采用一个或多个隐藏层学习数据暗含的特征,从而得到更好的数据表示 两种常见的DNN结构 CNN(卷积神经网络):应用于类似网络结构数据,例如图像矩阵 使用卷积和池化减少参数,减少噪声 RN
15、N(循环神经网络):应用于序列数据 隐藏层之间的节点有连接 梯度爆炸(特征值1)与消失(特征值1):引入LSTM 后面介绍如何应用于信息检索,29,参考资料,UFLDL教程:http:/ufldl.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B Goodfellow I, Bengio Y, Courville A. Deep learningM. MIT press, 2016. http:/www.deeplearningbook.org/ cs231n slides: http:/cs231n.stanford.edu/2016/s
16、yllabus Jozefowicz R, Zaremba W, Sutskever I. An empirical exploration of recurrent network architecturesC/Proceedings of the 32nd International Conference on Machine Learning (ICML-15). 2015: 2342-2350. Lipton Z C, Berkowitz J, Elkan C. A critical review of recurrent neural networks for sequence le
17、arningJ. arXiv preprint arXiv:1506.00019, 2015. Bishop C. Bishop, C.M.: Pattern Recognition and Machine Learning. SpringerM/ Stat Sci. 2006:140-155. 注:本小节所有图均来自上述材料,为了简洁未一一注明,特此说明。,30,提纲,31,上一讲回顾 深度神经网络(DNN)基础词向量Neural IR Model,32,Word2Vec,基于神经网络的一种用于训练词向量的模型Mikolov etc., arXiv 2013 两种模型CBOW和Skip-Gr
18、am 衍生出句向量训练模型Para2Vec Word2Vec在NLP和IR领域具有广泛应用,33,CBOW模型,Continuous Bag-of-Words(CBOW)模型 基本思想为根据上下文信息来预测词项 三层网络结构 输入层(Input):词项的上下文信息 投影层(Projection):整合上下文信息 输出层(Output):预测词项目标函数训练算法 梯度下降法,34,Skip-gram模型,Continuous Skip-Gram(Skip-Gram)模型 基本思想为根据词项来预测上下文信息 三层网络结构 输入层(Input):词项的信息 投影层(Projection):恒等变换
19、输出层(Output):预测词项的上下文信息 目标函数训练算法 梯度下降法,35,Para2Vec,用于训练句向量的模型Le etc., ICML 2014基本思想与Word2Vec相同,Para2Vec利用特殊词项Paragraph id标记每一篇文档,训练词向量时,Paragraph id作为该文档中每一个词的上下文的一部分参与词向量的训练,最后Paragraph id的向量用于表示整个文档。,36,词嵌入,词/句嵌入的生成 初始时模型为每一个词项分配一个随机参数向量,然后利用随机梯度下降法对CBOW或Skip-Gram模型的目标函数进行优化,不断地对每一个词项的参数向量进行调整,模型训练
20、结束时最终的参数向量即作为词项的嵌入(Word Embedding)。 重要特性 度量词项间的相似性 SummerWinter,StrongPowerful,ChinaTaiwan 词嵌入在向量运算中保持语义关联Word2Vec/Para2Vec vs LDA Word2Vec/Para2Vec训练时考虑了词项的上下文信息 LDA训练时仅基于词项的统计信息 IR中的应用:文档的相关性取决于文档上下文内容,词嵌入:总结,建立词的上下文网络模型,训练得到权重参数 权重参数向量即为所谓词嵌入 向量的维度k:一个重要的参数 权重参数:表示每一维的重要性 语料中每一个单词最终由一个k维(语义)向量表示,
21、37,38,参考资料,T. Mikolov, et al. “Efficient Estimation of Word Representations in Vector Space.“ arXiv preprint arXiv:1301.3781 (2013). Q. Le, and T. Mikolov. “Distributed Representations of Sentences and Documents.“ ICML. Vol. 14. 2014. Mikolov T, Sutskever I, Chen K, et al. Distributed representation
22、s of words and phrases and their compositionalityC/Advances in neural information processing systems. 2013: 3111-3119.,提纲,39,上一讲回顾 深度神经网络(DNN)基础词向量Neural IR Model开源工具及代码,40,相关背景,信息检索 (IR):给定用户查询,返回相关文档,满足用户信息需求传统IR模型如TFIDF基于查询词项的分布进行文档相关度评分 词频分布:Log 词频 全局分布:IDF近年来,深度神经网络 (DNN) 在自然语言处理 (NLP) 领域得到了广泛应
23、用已有一些研究人员对DNN在IR领域的应用进行了一定的探索,涌现了一批基于DNN的检索模型 这一类模型通常称为 Neural IR Model,41,现有NIR模型的常用架构,基本思想:基于Word2Vec产生单词和文档的向量表示,基于DNN提取文档-查询特征/匹配信号,然后输入一个前馈网络或Learning to Rank 算法产生最终的文档相关度评分 现有NIR模型之间的区别主要在于怎样利用DNN得到可以用于文档排序的特征/匹配信号 IR相对于其它机器学习任务的难点在于相关性的主观性 对于不同查询、不同任务,文档的相关性是不同的 使用部分查询训练得到的排序模型,难以应用到其它查询 Poin
24、twise Learning to rank算法也有类似的问题,因而产生了Pairwise 算法 因此通常采用查询 文档之间 word pair的相似度矩阵 抵消查询之间相关性定义的差异 转化为图,可以使用CNN、RNN 也有一些早期的工作先用DNN学习得到查询和文档的表示,再计算相似度,即representation-based方法,不过效果不好,最近的工作都是基于相似度矩阵,即interaction-based方法。,42,MatchPyramid,Pang etc., Neu-IR 2016 背景与基本思想: 在文本匹配的过程中,需要考虑各种层次的匹配信号,包括单词层次、短语层次以及句子
25、层次等等; 卷积神经网络 (CNN) 结构在计算机视觉 (CV) 领域的成功表明其能够很好地胜任这种复杂多层次信号的提取; 对于给定两段待匹配文本,可以构建一个单词-单词相似度矩阵,把该矩阵视为一张伪图像,则CNN可以直接应用于文本匹配过程中的不同层次匹配信号的提取。,43,MatchPyramid,模型结构给定两段文本,首先计算一个基于单词-单词相似度的匹配矩阵 (matching matrix), 之后一些级联卷积神经网络 (CNN) 层作用于该匹配矩阵逐步获取更高层次的匹配信号 (短语层次、句子层次等),最后一个MLP网络结构作用于最后一个CNN层的输出,得到给定文本最终的匹配分数。,M
26、atchPyramid模型结构 来源:Pang etc., Neu-IR 2016,44,MatchPyramid,实验设置 Pooling size对模型的影响,45,MatchPyramid,实验设置 与baseline的比较:QL,BM25,DSSM,CDSSM,ARC-I,ARC-II Pooling size对模型的影响 Similarity function对模型的影响:指示函数(Ind),点积(Dot),余弦相似度(Cos),高斯核(Gau) Kernel size对模型的影响实验结果,MatchPyramid,实验结果实验结论 相比所有其它基于DNN的检索模型,MatchPyr
27、amid具有更好的效果,且能够取得与传统检索模型接近的结果。 Pooling size太大或大小均不好,对于查询,近似取查询长度的中位数,对于文档,近似取平均段长度比较合适。 对于Similarity function,使用高斯核能得到最好效果,指示函数能够得到与高斯核相近的结果,余弦相似度稍微差点,点积与前三者差距较大。 对于指示函数相似度,Kernel Size对模型效果影响不大;对于高斯核相似度,一个合适大小的Kernel Size能取得更好的结果。,47,DRMM (Deep Relevance Matching Model),Guo etc., CIKM 2016 背景与基本思想:
28、现有的基于DNN的检索模型将检索任务视为两段文本的匹配任务,更多地关注语义匹配 (Semantic Matching),即所谓软匹配 ; 相比普通的文本匹配任务,检索任务更需要关注相关性匹配 (Relevance Matching) ; 通过显式地对精确匹配信号 (Exact Matching Signals),查询词重要度 (Query Term Importance),以及多样匹配要求 (Diverse Matching Requirement)进行建模,得到的模型更加适合于检索任务,48,基本算法步骤,构建查询(q) 文档(d)相似度矩阵对每一行(即每一个查询词)统计矩阵中相似度数值的分
29、布区间计数(Count) 取 0, 0.1, 0.2, , 1.011个点,对应不同强度的匹配信号Count取对数 (LCH),然后输入到前馈网络 每个查询词对应一个前馈网络Softmax(前馈网络输出评分 * IDF),线性加和得到文档最终评分,模型结构给定查询q和文档d,对于q中的每一个词,计算其与d中每个词余弦相似度,统计落在给定各个区间的数目,将得到的向量输入到一个MLP网络,得到d关于该查询词的评分,最后将d关于q中各个词的评分线性加权得到d的相关性评分。各个查询词的权重由一个Softmax结构给出,输入为查询词的词向量或者逆文档频率。,DRMM模型结构 来源: Guo etc.,
30、CIKM 2016,实验设置 与baseline比较:QL,BM25,DSSM,CDSSM,ARC-I,ARC-II,MatchPyramid 余弦相似度计数变换方式与查询词权重计算方式对模型的影响:直接使用计数(CH),除以总数(NH),取对数(LCH);输入查询词向量(TV),输入查询词逆文档频率(IDF) 实验结果,实验设置 与baseline比较:QL,BM25,DSSM,CDSSM,ARC-I,ARC-II,MatchPyramid 余弦相似度计数变换方式与查询词权重计算方式对模型的影响:直接使用计数(CH),除以总数(NH),取对数(LCH);输入查询词向量(TV),输入查询词逆文
31、档频率(IDF) 实验结果,52,DRMM,实验结论 DRMM的效果优于所有baselines,包括传统检索模型QL和BM25,是第一个能够取得比传统检索模型更好效果的基于DNN的检索模型 但是传统模型并未使用诸如PRF的重排策略 基于LCH和IDF的模型效果最好 LCH:匹配信号的Count取Log IDF:Term Gating线性加权权重 某种程度上借鉴了传统模型的TFIDF结构,53,Duet,Mitra etc., WWW 2017 背景与基本思想: 现有的许多模型学习文本的分布式表示(Distributed Representation) ,然后在潜在语义空间对查询和文档进行匹配;
32、 传统检索模型中词通常离散的或者说局部的表示,对于给定查询,文档是否相关通常由查询词的精确匹配 (Exact Matching) 来决定; 本文假定以上两种方式是互补的,通过对这两种方式进行结合,期望能得更好的效果。,模型结构模型由两部分组成:局部模型 (local model) 以及分布式模型 (distributed model)。局部模型输入为查询与文档的单词-单词相似度矩阵,相似度由单词one-hot表示的余弦值衡量,经过CNN层、全连接层和Dropout层,最终输出一个标量评分;分布式模型输入为查询和文档的n-graph表示,它们的n-graph表示各自经过CNN层或全链接层,得到中
33、间表示,然后对它们的中间表示求Hadamard Product得到一个矩阵,此矩阵经过全连接层和Dropout层,也输出一个标量评分。最终局部模型和分布式模型输出的评分求和得到最终的评分。,来源: Mitra etc., WWW 2017,55,Duet,实验设置 与baselines的比较:LSA,BM25,DM,QL,DRRM,DSSM,CDSSM,DESM Duet模型与Local Model与Distributed Model的比较 使用人工判定的不相关文档训练与使用随机采样作为不相关文档训练对比实验结果,56,Duet,实验结果实验结论 Duet组合模型要比单独的Local模型以及D
34、istributed模型的效果好,说明精确匹配与潜在空间的匹配的确是互补的。 使用人工判定的不相关文档训练要比使用随机采样不相关文档训练的效果好,57,K-NRM (Kernel-based Neural Relevance Model),Xiong etc., SIGIR 2017 背景与基本思想: 现有的基于分布式表示 (distributed representations) 的文档排序方法还很少取得成功; 查询词与文档词的精确匹配是一种强相关信号,然而软匹配 (soft-match)也是一种不可忽视的弱相关信号; 本文使用查询词与文档词的分布式表示相似度 (如词向量余弦相似度) 来构建
35、翻译矩阵 (translation matrix) ,一种新的kernel-pooling技术用来提取多层次的软匹配 (soft-match) 特征,这些软匹配特征可以输入learning-to-rank层获取最终排序评分。,模型结构,Embedding Layer 将单词映射为其分布式表示;查询词与文档词之间的相似度构成Translation Matrix;将K个核作用于每个查询词对应的Translation Matrix的一行,得到每个查询词对应的K维软匹配特征,求和得到最终的Ranking Features;一个Learning-to-rank层作用于最终的特征得到最终的排序评分。,使用
36、RBF 核函数将矩阵每一行转化为一个对数评分Soft-TF取=0, 0.1, 0.2, , 1.011个点,对应不同强度的匹配信号,实验设置 与baselines比较:LM,BM25,RankSVM,Coor-Ascent,Trans,DRMM,CDSSM 3中不同的Test Labels:与Training Labels使用相同的模型 (Testing-Same);与Training Labels 使用不同的模型 (Testing-DIFF);直接使用用户点击 (Testing-RAW) Sougo数据实验结果,实验设置 与baselines比较:LM,BM25,RankSVM,Coor-A
37、scent,Trans,DRMM,CDSSM 3中不同的Test Labels:与Training Labels使用相同的模型 (Testing-Same);与Training Labels 使用不同的模型 (Testing-DIFF);直接使用用户点击 (Testing-RAW) 实验结果,模型结构,实验设置 与baselines比较:LM,BM25,RankSVM,Coor-Ascent,Trans,DRMM,CDSSM 3中不同的Test Labels:与Training Labels使用相同的模型 (Testing-Same);与Training Labels 使用不同的模型 (Tes
38、ting-DIFF);直接使用用户点击 (Testing-RAW) 实验结果,模型结构,实验设置 与baselines比较:LM,BM25,RankSVM,Coor-Ascent,Trans,DRMM,CDSSM 3中不同的Test Labels:与Training Labels使用相同的模型 (Testing-Same);与Training Labels 使用不同的模型 (Testing-DIFF);直接使用用户点击 (Testing-RAW) 实验结果,63,K-NRM:结论,是一个End-to-end的NIR model,没有使用IDF/TF等handcraft权重/特征 使用3种不同的
39、Test Labels设置,相比所有baselines,K-NRM均能取得显著提高 Testing-DIFF的结果表明了K-NRM模型的鲁棒性;MRR以及NDCG1的结果表明K-NRM擅长靠前位置的文档的排序 软匹配 (soft match) 是模型有效的最基本条件;基于kernel的词向量能够得到更好的软匹配特征,64,PACRR (Position Aware Convolutional Recurrent Relevance Model),Hui etc., EMNLP 2017 背景与基本思想: 现有基于DNN的检索模型主要基于unigram单词匹配,对于位置相关的匹配信息 (如ter
40、m proximity和term dependencies) 的建模还没有充分的研究 ; 本文通过将具有不同大小 (k=2,lg) 卷积核的卷积层作用于查询与文档间的单词-单词相似度矩阵,来对k-gram匹配信息进行建模。,模型结构,首先,计算查询与文档之间的单词-单词相似度矩阵sim|q|x|d|,并通过裁剪或者补齐等方式得到固定大小的矩阵simlqxld;对于核大小为k x k (k=2,lg) 的卷积层,用nf个卷积核作用于矩阵simlqxld并对卷积核维度进行max pooling,得到与simlqxld形状相同的矩阵;之后,对文档维度进行ns-max pooling,并将不同的k值对
41、应的结果以及查询词的IDF信息以查询词为基准连接起来;最后将查询词向量送入RNN得到最终评分。,PACRR模型结构 来源:Hui etc., EMNLP 2017,作者后续研究表明使用 前馈网络结果更好,66,PACRR,实验设置 与baselines比较:MatchPyramid,DRMM,DUETL,K-NRM 相似度矩阵sim|q|x|d|调整方式对比:裁剪或补0 (PACRR-firstk),选取与查询具有较高相似度的文本段 (PACRR-kwindow) 3组实验:重排QL检索结果 (RERANKSIMPLE),重排6年所有的提交TREC runs (RERANKALL),文档对相关
42、性预测 (PAIRACCURACY) 实验结果,67,PACRR,68,PACRR,实验结果结论 实验结果优于已有的NIR模型 使用卷积核学习k-gram相关度匹配特征是一种有效的方法 未与传统的n-gram模型进行对比,69,总结与展望,基于DNN的检索模型的研究虽然目前取得了一定的成果,但还有许多问题没有解决 尚未得到明显优于传统模型的结果:NIR模型本质上是一个重排算法,而大多论文工作并未对baseline重排(例如利用伪相关反馈算法) 通过CNN等“学习”到的特征 Vs 基于信息理论进行概率估计得到的特征 是否有本质区别? 和传统模型主要区别来自于Word2Vec产生的词向量表示 使用
43、NIR模型对初始检索结果重排可以得到更好的结果,单独使用难以得到可靠的理想的结果,且存在效率问题 目前DNN在信息检索上的应用已成为一个研究热点,在大数据的支持下,DNN可望大幅提高信息检索应用的效果 但是还有待一个“王炸”级别的Neural IR Model出现,70,参考资料,MatchPyramid Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, Xueqi Cheng: A Study of MatchPyramid Models on Ad-hoc Retrieval. CoRR abs/1606.04648 (2016) DRMM Jiaf
44、eng Guo, Yixing Fan, Qingyao Ai, W. Bruce Croft: A Deep Relevance Matching Model for Ad-hoc Retrieval. CIKM 2016: 55-64 DUET Bhaskar Mitra, Fernando Diaz, Nick Craswell: Learning to Match using Local and Distributed Representations of Text for Web Search. WWW 2017: 1291-1299 K-NRM Chenyan Xiong, Zhuyun Dai, Jamie Callan, Zhiyuan Liu, Russell Power: End-to-End Neural Ad-hoc Ranking with Kernel Pooling. SIGIR 2017: 55-64 PACRR Hui K, Yates A, Berberich K, et al. PACRR: A Position-Aware Neural IR Model for Relevance Matching. EMNLP 2017: 1060-1069.,