1、京 东 推荐系 统实 践打造千人千面的个性化推荐引擎目推荐系 统1234京 东 推荐 产 品及架构通用模型的 应 用离 线 CTR 预测实 例实验 与 监 控目推荐系 统1234京 东 推荐 产 品及架构通用模型的 应 用离 线 CTR 预测实 例实验 与 监 控京 东 推荐 产 品 80+ 推荐 产 品,包括移 动 端和 Web 端 20+ 推荐服 务 ,支撑 EDM、广告、微信端等 遍布用 户 网 购 的各个 环节推荐系 统 的价 值 挖掘用 户 潜在 购买 需求 缩 短用 户 到商品的距离 用 户 需求不明确 时 提供参考 满 足用 户 的好奇心推荐 产 品截 图 示例不同位置的推荐 产
2、 品定位不同 单 品 页 : 购买 意 图 过 渡 页 :提高客 单 价 购 物 车页 : 购 物决策 无 结 果 页 :减少跳出率 订单 完成 页 :交叉 销 售 关注推荐:提高 转 化 我的京 东 推荐:提高忠 诚 度 首 页 猜你喜 欢 :吸引用 户京 东 推荐系 统 架构京 东 推荐算法 优 化方向 以数据分析 为 工具,提升数据的 质 量和覆盖度,增 强 对业务 的理解( 25%) 测试 不同算法在不同数据源的效果,提高召回模型的 质 量,增加 结 果辨 识度( 50%) 以用 户 反 馈为 依据,融合不同 类 型、不同 维 度据源, 对 推荐 结 果重排序( 15%) 增加数据的更
3、新 频 率( 5%) 其他( 5%)推荐系 统 效果全景 图注:出于公司数据 发 布安全考 虑 ,已 对 品 类订单 占比数据做了随机 变换 , 仅为 演示所用目推荐系 统1234京 东 推荐 产 品及架构通用模型的 应 用离 线 CTR 预测实 例实验 与 监 控京 东对 推荐数据的理解用 户 行 为12345浏览点 击 普通点 击 搜索点 击加入 购 物 车 (或关注)购买 订单 用 户评 分基于内容 标题 扩 展属性 评论 描述 .典型推荐系 统 技 术按照数据的分 类 : 协 同 过滤 、内容 过滤 、社会化 过滤按照模型的分 类 : 基于近 邻 的模型、矩 阵 分解模型、 图 模型协
4、 同 过滤 I用 户 和商品的共 现阵 :IU 1,0,0,0,0,1,0,1,0,0,0,0,1,1,0,0,0,1,0,0,0,0,1,0,0,0,1,0,1,0,0,0,1,0,1,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,1,0,0,1,对 于商品 (item) 向量至少有 10+ 的距离 计算公式来 计 算商品 间 的距离,一般有: Jaccard 距离 (修正 )cosine 距离 Manhattan 距离 Chebychev 距离 欧 (闵 ) 式距离 Pearson 相关系数 Spearman 相关系数 Kendall 相关系数 .协
5、同 过滤 II以及不太常 见 的: simrank Mahalanobis 距离 基于条件概率的 interest Log likelihood ratio Mutual information支持 类 模型 离 线 推荐 CTR 预测 模型 用 户购买 力模型 周期 购买 商品 识别 模型(商品 识别 + 购买 周期) 不良 商品 识别 模型 基于 图书 内容的 LDA 模型 用 户 行 为 加 权组 合的 SVD、 SVD+关于冷启 动对 于 “瓜子 ”我 们应该 推荐什么1234567891011121314151591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_
6、瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1591_ 瓜子1590_ 锅 巴1590_ 薯片1590_ 花生1591_ 开心果1591_ 花生1591_ 西瓜子1591_ 腰果1595_ 饼 干1590_ 豆腐干1592_ 牛肉干1594_ 口香糖1591_ 炒 货1590_ 肉松 饼1671_ 卫 生 纸1593_ 大 枣1.0000.5960.4430.3180.2740.2650.2350.2300.2270.2260.2060.2040.2030.1720.165周期 类 商品(部
7、分)作弊和反作弊 用 户 行 为 的复 杂 过 度 SEO 直接作弊策略: 异常行 为 降 权 异常用 户 直接 过滤 点 击 流 规则过滤目推荐系 统1234京 东 推荐 产 品及架构通用模型的 应 用离 线 CTR 预测实 例实验 与 监 控推荐的 CTR 预测 关 联 推荐的情境下,根据 给 定主商品推出的推荐商品,在用 户浏览 后被点击 的概率。 可以理解 为 条件概率 P(Y = 1|X)为 什么要 预测 推荐商品的 CTR?123调 整推荐商品的排序,推断潜在模式多模型融合的方式发现 影响推荐商品点 击 率的重要因素特征表征方法用目 标问题 所在的特定 领 域知 识 或者自 动 化
8、方法来生成、提取、 删 减或 组 合 变化来得到特征。领 域 经验 法 条件关系( =,!=) 几何运算 分段及比例 其他自 动 化技 术 PCA, ICA, NMF Linear DiscriminantAnalysis Collaborative Filtering AutoEncoder最 优 子集( Feature selection)的 优 点 提高模型的可解 释 性 减少 训练 和 预测 的 时间 有效降低 过拟 合,提升模型的适 应 能力模型 选 用的是基于 L1 + L2 正 则 的 elastic net最 优 子集( Feature selection)的 优 点 提高模型
9、的可解 释 性 减少 训练 和 预测 的 时间 有效降低 过拟 合,提升模型的适 应 能力模型 选 用的是基于 L1 + L2 正 则 的 elastic net 如何 对 商品属性 进 行描述对 商品的形容:品牌 词 、中心 词 、修 饰词 ; 类 目属性、 扩 展属性;基于用 户 行 为 的在商品上的反映: 销 量、 PageRank、 评论 数、好 评 度、 浏览 深度 商品的 标签 (如 时间标签 、地域 标签 、性 别标签 等)对 于商品 标签 (以 时间 差异构建的 时间 feature 为 例):假 设 9: 00 - 19: 00 为 白天( D), 19: 00 - 9: 0
10、0 为 夜 间 ( N), 则 在 这 两个 时间 段内的用 户购买则 构成了 该 商品的 时间标签 , 该 商品 标签 的一般性定 义为 :u D u DMu,i +Mu,iu N Mu,i u D u DMu +Muu N Mu商品的 组 合属性基于 单 一属性 组 合 产 生的属性,有以下三种: 相同 类 属性的 组 合:如 时 序上的 销 量( 趋势 系数), 销 量的方差 不同 类 属性的 组 合:如商品的展示和点 击组 合(如 CTR)、点 击 和 购买 的组 合(如 CVR) 推荐主商品和推荐品属性的 组 合。比如品牌 词 是否一致,价格的比 值 是否在一定范 围 内。推荐主商品
11、和推荐品三 级类 目关系需要使用两两配 对 的 feature 表征形式。采 样 策略1 vs 0部分三 级类组 合系数展示12345678910111213141516171819前 项产 后塑身月子装婴 儿外出服水 壶 /水杯宝宝洗浴待 产 /新生待 产 /新生婴 儿鞋帽袜扭扭 车宝宝零食日常 护 理奶瓶奶嘴婴 儿内衣婴 儿鞋帽袜滑板 车拉拉 裤奶瓶奶嘴婴 儿尿 裤婴 幼奶粉后 项孕 妇 装孕 妇 装羽 绒 服 /棉服洗衣液 /皂爬行 垫 /毯湿巾宝宝 护 肤防 辐 射服日常 护 理钙铁锌 /维 生素孕 妈 美容驱 蚊防蚊防 辐 射服摇铃 /床 铃日常 护 理婴 幼奶粉吸奶器调 味品水 壶 /水杯权 重-1.55-1.32-1.28-1.27-1.25-1.17-1.13-1.12-1.04-1.00-0.99-0.97-0.97-0.97-0.87-0.87-0.85-0.84-0.84目推荐系 统1234京 东 推荐 产 品及架构通用模型的 应 用离 线 CTR 预测实 例实验 与 监 控实验 配置平台 配置 实时 生效 任意百分比流量切 换 可使用 random、 partition by user 等策略分流 支持版本回溯 有 权 限管理体系实验对 比平台