1、阿 里移动推荐算法大赛答辩SecRet;WeaPon孝陵卫南京理工大学数据挖掘探险队Nothing中兴图灵杯人工智能一等奖标签推荐数据挖掘方向特征 工程Implus南理校 ACM队员,银奖第一中兴图灵杯人工智能一等奖Deep Learning方向算法 及融合模型Furong数学建模一等奖数据挖掘推荐系统方向框架 设计后续任务描述框架设计特征工程算法及模型融合任务描述0 30 天脱敏用户商品交互数据 31天用户购买商品 ?0 30 天交互数据重点用户 4种操作:点击浏览、收藏、加入购物车、购买商品的类别归属等移动推荐任务后续任务描述框架设计特征工程算法及模型融合0 30 天用户商品交互数据 31
2、天 用户购买商品 ?框架设计用户 A 在 考察日购买了商品 x用户 B 在 考察日未 购买商品 y用户商品全集二分类考察日四元素用户商品考察日是否购买框架设计 样本结构四元素用户商品考察日是否购买发生购买行为则为 1未发生购买行为则为 0框架设计 样本选择方案一:所有用户 所有商品方案二:考察日前所有有交互的用户 交互商品方案三:考察日前特定天数特定交互的用户 交互商品框架设计用户数5 million商品数13 million观察天数32总样本数2000000000000000总样本约: 个用我们的特征体系计算所有样本的时间是: 273972 年未交互样本量巨大 且缺乏大量有效信息,考虑过滤。
3、方案一:所有用户 所有商品框架设计 方案二:考察日前所有有交互的用户 交互商品0.00%2.00%4.00%6.00%8.00%10.00%12.00%14.00%16.00%18.00%ddate=1 ddate=2 ddate=3 ddate=4 ddate=5 ddate=6 ddate=7 ddate=8 ddate=9 ddate=10购买 转化率BrowseCollectionAdd-to-cart框架设计 方案二:考察日前所有有交互的用户 交互商品05000000001E+091.5E+092E+092.5E+09Browse Collection Add-to-cart前 n天
4、交互对象为 考察日 负样本 分布Day1 Day1-2 Day1-3 Day1-4 Day1-5 Day1-6 Day1-7 Day1-8 Day1-9 Day1-10020000040000060000080000010000001200000140000016000001800000Browse Collection Add-to-cart前 n天交互对象为 考察日 正样本 分布 (平缓) 7天正样本 = 10+天正样本 浏览负 样本 陡增,每往前推一天,+ 2亿负样本框架设计 方案三:考察日前特定天数特定交互的用户 交互商品转化率 样本量 模型性能效率框架设计 样本分配 -训练测试线下模
5、型线上模型一线上模型二训练训练训练0 6 30 317 29后续任务描述框架设计特征工程算法及模型融合特征工程 特征创新引入丰富的 特征群 (即按照特征属性分为 10类)精心设计了大量 二次组合统计特征特征工程 特征群 -基础群Geo(地理信息)U(用户)C(商品类别)I(商品)特征工程 特征群 -基础群U特征群计数特征加和特征加权特征转化率特征活跃度特征I特征群计数特征加和特征商品热度特征交互时间特征交互人数特征星期分布特征C特征群计数特征加和特征类别热度特征回头客特征Geo群用户商品最近距离特征商品是否具有地理信息特征特征工程 特征群 -衍生群U用户I商品UI用户 -商品U特征 I特征 C
6、特征U特征 - UI特征群 UC特征群I特征 UI特征群 - IC特征群C特征 UC特征群 IC特征群 -特征工程 特征群 -衍生群UI特征群计数特征加和特征权值特征交互时间特征习惯偏差特征UC特征群计数特征加和特征权值特征交互时间特征习惯偏差特征星期分布特征IC特征群比例特征排序特征UI&UC特征群竞争特征排名特征U&UI特征群基本比率特征二次购买特征交互时间比特征交互排名特征U&UC特征群基本比率特征二次购买特征竞争特征交互时间比特征交互排名特征特征工程 同理 -衍生群特征工程 二次统计特征特征群 特征名 特征含义 优势及作用UI&UC uiuc_row_ln_weight_day_1_7
7、该用户在考察日前 7天对该商品 4种操作加权值在用户对该类下所有商品加权值中的排序防止预测一个用户购买同类商品下的大量不同物品U&UI uiu_row_ln_weight_day_1_7该用户在考察日前 7天对该商品 4种操作加权值在用户对所有商品加权值中的排序可以预测出用户最想购买的商品U&UC ucu_row_ln_weight_day_1_7该用户在考察日前 7天对该类别商品 4种操作加权值在用户对所有类别加权值中的排序可以预测出用户最想购买的类别* 4种操作加权 值是指对 4种操作数目加权统一成一个数值特征工程 特征细节 总维度有 2064,核心维度有 780+ 统计特征窗口为 1/2
8、/3/4/5/6/7/10/15/21/30 ln(1 + x) 平滑 化比率除法为减法,同时避免除 0错误 数据平滑标准化,减弱异常数据的影响 统计特征窗口 7,用平均值解决数据截断问题 比如考察日为 12,那么对于前 20天的浏览量的统计特征就会出现数据截断丢失问题 使用前 20天的 平均浏览量 能够 有效避免 因为数据截断而导致的数据分布不一致后续任务描述框架设计特征工程算法及模型融合算法创新从第一赛季开始引入 深度学习(卷积神经网络CNN) ,自主设计了适应推荐系统的 二维特征模式 ,并在尝试中发现了由 drop-out正则化带来 自融合 方式;算法及融合模型深度学习1 Krizhev
9、sky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. “Imagenet classification with deep convolutional neural networks.“ Advances in neural information processing systems. 2012.Method Top-5 errorDeep CNN 1 15.315%SIFT+FV 26.172%High-Level SVM 26.979%Large Scale Visual Recognition Challenge 2012 rank 算法
10、及融合模型图像处理 语音识别 自然语言处理推荐系统?算法及融 合模型深度卷积神经网络0 30 天用户商品交互数据 31天 用户购买商品 ?1. 综合各大领域,卷积神经网络带来的 革命性 最大2. 卷积 核 具有很强的从 局部到全局 抽取鉴别特征的能力借鉴局部特征高阶特征算法及融合模型二维特征模式 前 3天 前 2天 前 1天UI特征群UC特征群U特征群I特征群时间轴原始统计特征量算法及融合模型卷积网络结构* 不 采用任何 pooling* 使用 drop-out regularization,有自融合功效算法及融合模型卷积网络深度卷积神经网络( Deep CNN)在 Season 1:算法及融合模型