1、移动电商搜索个性化技术仁基 /徐盈辉资深算法专家淘宝搜索事业部15/3/28 1移动视角 输入 /输出 文字,图像,语音 突破物理屏幕 物理屏 虚拟屏 交互 -正负反馈 流量匹配机制 商业模式 效率化 连续化 内容的再组织 个性化 时间和地点 社交元素 (social is mobile)交互 &浏览模式碎片化 &多屏 &多终端生态化私有化 &移动化 &社交化评估体系用户的构成比例【 老中青幼 】需求的丰富性度量【 商品 /服务 /应用】购物链路的效率指标点击 /2跳 /成交停留时长留存率生态指标15/3/28 2移动搜索产品形态15/3/28 3个性化搜索 挑战 大 数据,稀疏,长尾, 噪音
2、 淘 宝上海量的商品,针对个体而言,发生行为的商品有限 , 稀疏度在 百万分 之一,甚至更低 用户 行为模式的挖掘和利用 网购行为的复杂性 如何 准确的描述用户的兴趣和特色,包括长短期兴趣 等? People change over time 冷启动 新用户 新商品 多样性 与精确性的两难困境 Interestingness v. relevance Need Serendipity 用户界面与用户体验 个性化体验的可解释性 系统的挑战性 评估的挑战性15/3/28 4个性化 搜索误区 千人千面并非意味着去追求单纯个体的个性化体验 个性化搜索是立足于提升整体用户的个性化体验 Personali
3、zation != customization 勿忘行为建模的基本假设 hypothesis: 接受商品 接受他得所有属性 过度个性化 搜索场景的个性化: “to personalize or not to personalize “ Explore & Exploitation 主观性 vs. 客观性 “data driven” 购物行为所表现的个性化特点 ! = 用户的物理 个性化特征15/3/28 5个性化技 术 的魅力15/3/28 6个性化技 术机器学习计 算经济学系 统架构大数据分析目录 目录1234个性化体系架构Query/user 意图识别 个性化 数据个性化模型6 E&E5
4、实时个性化15/3/28 7鸟瞰 个性化体系用 户 query商品个性化数据 + 模型用 户 关系数据 商品关系数据用 户 -商品关系数据海 选层精排 层( 长 期个性化 +实时 个性化 )Re-rank层Query/user意 图识别GraphSearch引擎个性化搜索 结 果展示15/3/28 8个性化体系offline长 期个性化模型建模实时 个性化模型建模基于 session 的用 户 点 击 行 为序列建立的 实时 userprofile建模 实时 人群 -商品 转化率 预 估建模分布式数据 处 理 & 并行机器学 习 ( ODPS)Pv日志 成交日志点 击 日志SyncProces
5、sor基于 hbase 的Hqueue AucProcessorUserProcessorHbase( 历 史表 )iStream on yarnredis实时 反 馈特征抽取 、 计 算, ID化用 户实时 profile 预测 器Near line实时增量数据TT 推送的实时 日志RealtimeLearner在 线 学 习 模 块User-profile 实时 模型(性 别 , 购买 力,品牌,店 铺 , 风格。)UPS商品引擎实时 特征更新长 期个性化模型海 选层Re-rank层精排层长 期个性化实时 个性化 online X W YQuery 意 图预测用 户 引擎实时 模型Near
6、line 环节实时更新的模型更新商品端用户行 为 累积 特征模型更新实现 用 户 profile的 实时 更新输出模型给 on line输出模型给 near line通过 nearline实现Online计算模块特征表现 X 的变化15/3/28 9个性化体系 Offline 离线模型训练数据收集,过滤 , 聚合,特征 ID化 利用 batch-learning产出 nearline环节, online环节所需要的模型 Near-line 构建于流式计算体系的实时日志解析,行为特征抽取,聚合 实时用户 profile预测,实时人群 -商品累积行为特征计算,离散化处理 更新在线排序计算依赖的实时
7、字段, UPS中实时 userprofile字段,引擎中的商品正排字段 构建基于 mini-batch的在线学习模型,增强系统的适应新数据的能力和explore能力 实时反作弊 Online 各个排序维度模型的在线预测 多个排序因素的在线融合 EE 策略15/3/28 10移动元素 个性化体系 查询意图 时间 , 地点 , 逛 /搜 Pull or Push 用户肖像 移动端特色数据 跨屏行为建模,实时肖像特征 P ( 满意 | query, 用户 , 商品 ) 实时个性化 E&EPULL PUSH15/3/28 11目录 目录1234个性化体系架构Query/user 意图识别 个性化 数据
8、个性化模型6 E&E5 实时个性化15/3/28 12Query/User 意图识别User-context 地点 +时间15/3/28 13Query/User 意图识别训练 数据转 化型 query浏览 型queryQuery的个性化需求Query进 行个性化 标 注地域 性别 购买力年龄段。1. 显 式: query 包含个性化 tag 2. 隐 示: query 不包含个性化 tag 连衣裙,大裤衩电影票骷髅头 T恤 情侣装 蕾丝正版 海外购 官网 高档samsung 三星 galaxy note i9220 3g( gsm/ wcdma ) 手机 黑色弹力修身高腰小脚裤 薄款eg.
9、建立以 query转 化率 为目 标 ;用 户 session内行 为为 特征的 LR模型解决 16%搜索意图明确的轮胎钟点工移 动 端的场 景时间 +地点 +状态15/3/28 14Query 的隐含个性化需求15/3/28 15目录 目录1234个性化体系架构Query/user 意图识别 个性化 数据个性化模型6 E&E5 实时个性化15/3/28 16私有化 /移动化 /社交化跨屏 行为、实时用户肖像手机 类 型网 络类 型GPS(经纬 度 ) 天气场 景(移 动 ,家, 办 公)15/3/28 17用户 DNA个性化体系人口统计学性别,年龄段,职业,人生阶段等行为偏好价格,店铺,品牌
10、等用户DNA社会关系微博好友, 手机通讯录 ,转账等其他手机设备,网络类型 等场景(时间,地点,状态等 )兴趣偏好风格,款式 ,爱吃,爱美,爱旅游等数据J 数亿 月活跃用户J 数十亿 日均用户行为次数J 数千亿 + 用户 -商品关系链J 数百亿 + 用户 -店铺关系链J 数百亿 + 用户 -用户关系链J 千万 达人买家库15/3/28 18实时用户 DNA个性化体系行为 4 N个采用滑窗方式抽取训练样本,窗口内的行为中前面 n-1个提取特征,最后一个当作目标用户 48小时内的行为序列N-1个行为序列个性化偏好先验概率行为类型最后一个针对每个 个性化 偏好 提取是否点击或成交该 个性化偏好+ L
11、R模型行为 5 行为 6 行为 7 行为 N行为 1 行为 2 行为 3Pc 端行为移动 端行为移 动 首次 pvNo physical session boundary15/3/28 19目录 目录1234个性化体系架构Query/user 意图识别 个性化 数据个性化模型6 E&E5 实时个性化15/3/28 20浏览和交互模式:自上而下的串行模型15/3/28 21问题定义 个性化模型个性化模型 目标是 : 如何考虑移动场景下浏览和交互模式下产生的 bias 串行 浏览 模式下: 1. 有效点 击 量化 模型 ( UCM)2. 有效 pv量化 模型 ( UBM)15/3/28 22UBM
12、 & UCM 有效曝光量化模型 ( UBM) 参考: A User Browsing Model to Predict Search Engine Click Data from Past Observations, Georges E. Dupret, Benjamin Piwowarski, SIGIR08 有效点击量化模型 ( UCM) 参考: Modeling dwell time to predict click-level satisfaction, Youngho Kim, Ahmed Hassan, Ryen W. White , and Imed Zitouni, WSDM
13、201415/3/28 23结果分析 UBM&UCMDwell Time点 击转 化率UBM 训练结 果 UCM 训练结 果15/3/28 24个性化模型UBM UCMUser modelquery user人口 统计 学 标签购 物偏好用 户 簇 标签移 动设备 相关场 景相关商品类 目 标签商品 标签卖 家 /店 铺商品 ID匹配 类历 史反 馈类线 性模型: L1-LR 非 线 性: GBM, DNN15/3/28 25目录 目录1234个性化体系架构Query/user 意图识别 个性化 数据个性化模型6 E&E5 实时个性化15/3/28 26流量大,屏幕小行为特点:碎片化,随时随地
14、Pc 点 击 分布 day移 动 点 击 分布 day15/3/28 27互联网机器学习需要 “ 上线 ”当把学到的模型投入产品,人的行为会受模型影响,数据分布也会发生变化。28引用: Tieyan Liu 阿里技术沙龙 08/2013vs实时计算 移动搜索TT日志实时 日志解析实时 user-profile预测实时 商品 popularity预测实时 user-model基于 session粒度的离线 user-profile模型用 户 profile引擎商品索引引擎在 线预测离 线 batch训练的 usermodel在 线训练【 user-item】模型在 线 【 user-item】 模型在线部署长期个性化 用户,商品的个性化维度的特征实时 人货匹配模型的实时FTRL, Ad-predictor15/3/28 29E&E 个性化个性化推荐exploit vs explore个性化 exploit个性化 explore随机 explore15/3/28 30a) 设计有效 的个 性化探索维度 b) explore & exploitation的控制比例c) 根据业务目标制定合理reward和 regret量化函数