1、推荐系统评价指标综述汇报人:李烽n 文献来源:朱郁筱 ,吕琳媛 . 推荐系统评价指标综述 J. 电子科技大学学报 ,2012,02:163-175.研究背景3信息过载 多种推荐算法 孰优孰劣信息 过载多种推荐算法孰 优 孰劣研究背景4Web2.0时代,每个人既是信息接收者,也是信息创造者。信息数量庞大但质量参差不齐,造成信息过载。信息过载多种推荐算法信息过滤,为满足用户需求推荐个性化推荐。协同过滤算法、基于内容的推荐算法、混合推荐算法。孰优孰劣如何有效、客观评价推荐系统的效能,从实验室到实际应用的转换。研究背景很多学者 对 推荐 评 价指 标认识 不全面,局限于精确性,忽 视 多 样 性、新
2、颖 性、覆盖率等指 标学 术 界尚未建立推荐算法 评 估完整 统 一的指 标 群,部分学者写 论 文 时 只 选择对 自己有利的指 标对 各个指 标 的 优 劣和适用性了解 较 少,在 评 价指 标的 选择 和 结 果解 释 方面存在不足评价方法6在 线评 价n 设计在线用户实验,根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现n A/B测试n 高额成本离 线 评 价n 根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量n 方便、经济n 数据 集的划分(常用随机划分)与评价指标的选择评价指标7 准确度 指标 基于 排序加权的 指标 覆盖率 多样性 和新颖 性预测评 分的准
3、确度预测评 分关联分 类 准确度 排序准确度准确度指 标准确度指标预测评分的准确度衡量算法 预测 的 评 分与用 户实际评 分的 贴 近程度思路: 计 算 预测评 分和用 户 真 实评 分的差异局限 : 对 MAE指 标贡 献大的往往是那种很 难预测 准确的低分商品预测评分的准确度MSE和 RMSE指 标对 每个 绝对误 差首先做平方运算,所以 这 两个指 标对 比 较 大的 绝对误差有了更重的 惩罚预测评分的准确度预测评分关联衡量算法 预测 的 评 分与用 户实际 评 分之 间 的相关性最常 见 的三种相关性指 标 : Pearson积 距 相关、 Spearman相关、 Kendalls
4、Tau预测评分关联预测评分关联弱关系排序 问题 :在 实际 系 统 中可能有某用 户对 两个或者多个商品 评 分一致的情况。预测评分关联某用 户对 商品 实际评 分 为 : 4.4, 3.9, 3.8, 3.9, 1.0推荐系 统 预测评 分 为 : 3.3, 3.1, 3.0, 4.3, 3.1那么此 时 ,具有 严 格偏好差 别 的商品 对 有 (1,2)、 (1,3) 、 (1,4)、 (1,5)、 (2,3) 、 (2,5) 、 (3,4)、 (3,5) 、 (4,5)排序 相悖的商品 对 : (1,4)、 (3,5) 排序 兼容的商品 对 : (2,5) 得 NDMP=(2*2+1)
5、/2*9=0.278预测评分关联NDMP指 标 不 仅 适用于弱关系排序 问题还 可以用来 评 价推荐算法在不同数据及上的表现 。PS: 这 些 预测评 分关 联额 性指 标 都是只关注于 预测 排序 值 而不关注于具体的 预测评 分值 ,所以它 们 不适用于那些旨在 为 用 户 提供精确 预测评 分 值 的系 统 。分类准确度衡量推荐系 统 能正确 预测 用 户 喜 欢 或者不喜 欢 某个商品的能力。适用于那些有明确二分喜好的用 户 系 统 , 对 于非二分喜好系 统 ,需要 设 定一个 阈值 来区分用 户 的喜好。并非衡量系 统预测 具体 评 分 值 的能力,只要是没有影响商品分 类 的
6、评 分偏差都是被允 许的。最常用的分 类 准确度指 标 :准确率 (precision)、召回率 (recall)、 F1指 标 和 AUC。分类准确度分类准确度分类准确度准确率与召回率容易受到推荐列表 长 度、 评 分稀疏性以及喜好 阈值 的等多方面因素的影响,很多学者不提倡用准确率与召回率来 评 价系 统 ,特 别 是只考 虑 一种指 标时 偏差极大。准确率和召回率 指 标 往往是 负 相关的而且依 赖 于推荐列表 长 度。一般 情况下,随着推荐列表 长 度的增大,准确率 指 标 会 减小而召回率会增大。分类准确度对 于一个没有明确二分喜好的系 统 ?推荐的 阈值 不确定?往往采用 AUC
7、指 标 来衡量推荐效果的准确性。 AUC指 标 表示 ROC( receiver operator curve)曲 线 下的面 积 ,它衡量一个推荐系 统 能 够 在多大程度上将用 户 喜 欢 的商品与不喜 欢 的商品区分开来。正如我 们 在 这 个 ROC曲 线 的示例 图 中看到的那 样, ROC曲 线 的横坐 标为 false positive rate( FPR), 纵 坐 标为 true positive rate( TPR)分类准确度经过 分析, ROC曲 线 越接近左上角, 该 分 类 器性能越好。 AUC的取 值 范 围 介于 0.5和 1之 间 。分类准确度假如我 们 已 经
8、 得到了所有 样 本的概率 输 出(属于正 样本的概率)。根据每个 测试样 本属于正 样 本的概率 值 从大到小排序。图 中共有 20个 测试样 本, “Class”一 栏 表示每个 测试样 本真正的 标签 ( p表示正 样 本, n表示 负样 本),“Score”表示每个 测试样 本属于正 样 本的概率分类准确度从 高到 低依次将 ”Score”值作为 阈值 threshold,当 测试样本属于正样本的概率大于或等于这个 threshold时,我们认为它为正样本,否则为负样本 。AUC指标仅 用一 个数值就表征了推荐算法的整体表现,而且它 涵盖 了所有不同推荐列表长度的表现。但是 AUC指标
9、没有 考虑具体排序位置的影响,导致在 ROC曲线 面积 相同的情况下很难比较算法好坏,所以它的 适用范围 也受到了一些限制排序 准确度基于排序加权的指标基于排序加权的指标目前半衰期效用指标的使用仍然是有很大的 局限性 :首先 参数的选取尚未有统一的标准 。用户 的浏览概率与商品在推荐列表中的 位置呈 指数递减这一假设并不是在所有系统中都 适用。覆盖率覆盖率指算法向用 户 推荐的商品能覆盖全部商品的比例。多样性和新颖性推荐系 统 中的多 样 性体 现 在用 户间 的多 样 性和用 户 内的多 样 性。在信息论中 , 两个字码中不同位值的数目称为汉明距离 ( 异或操作)例如:1011101 与 1001001 之间的汉明距离是 2。2143896 与 2233796 之间的汉明距离是 3。“toned“ 与 “roses“ 之间的汉明距离是 3。多样性和新颖性