1、标签生成与推荐在淘宝导购中的应用,共享业务平台-伯隅,内容概要,背景介绍探索详解未来之路,背景介绍,淘宝购物方式关键词搜索类目浏览商品的增长购物方式的改变,关键词搜索,0.27%词与PV50%,几十亿商品争夺出场机会,买卖成本,基于类目导购方式,流量入口的限制,类目数量,商品,成交,标签:另一种流量入口,新的商品组织方式缓解流量的长尾,重新组织节点-重新组织商品,探索- 自动抽取,需要解决的问题标签从哪里来如何关联商品如何组织商品可控的思维定义标签语义类别定义标签关系,标签定义,类别定义 B品牌 P品类 T描述 A属性品类词指某一类商品的统称,如:七分裤、爽肤水、t恤、牛仔裤、洗发水等等。属性
2、词指淘宝后台类目下的属性项名称,如: “品牌”、“型号”、“风格”、“款式”等。描述词指描述商品的物理意义或者感性意义的词汇:“性感”,“甜美”,“麻辣”等。,标签数据源,标题,结构化数据,详情页,流量入口关键信息,信息规整,内容丰富,产品词挖掘,标题中找产品词相对专业、演化频率高转化未登录词的识别问题标题中字词有具有序列规律标注序列的过程 - 使用CRF模型,产品词挖掘,标题中的产品词未登入词的识别CRF模型,标注数据,商品标题,核心词库,模板,新词,增加30%+,品牌词挖掘,开放的结构化数据,小二管控,开放输入,数据净化,品牌库,描述词整理,描述词概要结构化词量占比小语义丰富问题归一语义层
3、次整理,大码女装、 加大码、加肥加大,甜美,荷叶边,泡泡袖,娃娃领,描述词整理,Topic model + 人工整理沉淀,LDA模型:随即抽取女装20w商品主题数在50300个输出标注: 娃领:22.994, 甜美:5.411, 公主:4.56, 复古:4.016, 可爱:3.8, 蕾丝:3.068 中老年:28.43, 妈妈装:24.146, 中老年女装:17.791, 中年:17.23, 妈妈:13.026, 中年女装:12.909, 其它图案:3.93, 开衫:3.077, 清仓:9.345, 特价:7.548, 促销:7.115, 正品:3.648, 大码女装:10.974, 加大码:
4、9.802, 潮人:7.293, 加肥加大:6.813, 平米:5.126, 大码:4.235, ,标签关联商品,商品信息,知识库(同义,层次),描述词整理,标签词库,单个商品包含的标签,匹配,分类模型,关系定义,四种类别15种关系,网状关系的定义 关系列举,iphone的品牌是苹果 夜店和露背经常修饰同一件商品裹胸是婚纱的一种主打样式森女是一种风格小清新的代表性品牌是hello kitty可以把手机和手机壳搭配来购买对围巾感兴趣的人,也对丝绸感兴趣目前家具摆件品类中的桃木剑很畅销佛珠手链是一种流行饰品,关系类型,产品- 品牌描述- 描述描述- 属性描述 属性描述 品牌产品 - 产品产品 产品
5、产品 产品,关系挖掘,异类类别互信息与阈值t-检验同类类别协同过滤, , = 2 (,) (), t(n1),描述词协同过滤的算法,机器标签-场景导购,探索一 -分析总结,人工方式+自动扩展词源不够丰富有趣受限query词卖家标题流量入口限制不是真正意义上的UGC标签是抽取的买卖双方都没有直接影响内容的机会,探索二-标签市场化,卖家打标试探,标签市场化,需要解决的问题标签的生成单个标签的质量归一问题(词组)标签与商品的关联标签关系的生成标签展示,标签生成,原始标签,指标过滤:商品数、卖家数,低质量黑名单过滤,同义归一,最终标签,清仓 特价 秒杀 亏本 促销,招财开运,转运招财,招财旺运,同义词
6、库,标签同义归一,旺财=招财,开运=转运=旺运,词组分词:转运招财,细粒度词转运 招财,细粒度归一,还原词组,词组归一,开运 旺财,旺财开运,Topic model+ 人工整理,标签关联商品,卖家打标保证语义相关增加卖家犯错成本产品层面保障请上来往和美女PD聊业务,厂外优先,标签关系的生成,标签数据新特点字面形态丰富语义类别决定语义关系品牌 品类 描述 属性让用户定义,我们“学习”SvmRanking svm,训练数据,相关 or 不相关主观性比较强,Learning to rank, 大于 , 大于 ,标签对 特征选取,字面特征编辑距离语义特征Lda 语义空间相似度包含词性 等等业务特征卖家、买家、类目重合等,Ranking svm 效果评测,测试集准确率75%,标签市场化 - 分析总结,用户是标签创新的源泉带给算法的挑战类别与关系不可定义“学习”相关性依赖于细粒度标签,未来的规划,解决入口问题标签个性化场景自发现(结合可视化),Thank you !Q&A,广告-上“来往”,技术,业务,最后的感谢,TPIF(商品知识图谱)君峰、江燕、全才、彩虹、月颖、家清、文渊淘宝行业市场算法团队规则实验室,