收藏 分享(赏)

企业级搜索托管平台介绍.ppt

上传人:scg750829 文档编号:5389252 上传时间:2019-02-27 格式:PPT 页数:29 大小:2.97MB
下载 相关 举报
企业级搜索托管平台介绍.ppt_第1页
第1页 / 共29页
企业级搜索托管平台介绍.ppt_第2页
第2页 / 共29页
企业级搜索托管平台介绍.ppt_第3页
第3页 / 共29页
企业级搜索托管平台介绍.ppt_第4页
第4页 / 共29页
企业级搜索托管平台介绍.ppt_第5页
第5页 / 共29页
点击查看更多>>
资源描述

1、企业级搜索托管平台介绍,Smith. 2008.3.26. 搜索技术中心.,目录,检索算法基础 搜索托管平台介绍 搜索托管平台展望,第一部分,检索算法基础 基本概念 基本算法 算法难点 搜索托管平台介绍 搜索托管平台展望,检索算法基础-基本概念,正文数据库,相关结果检索,响应,检索 格式化,DB,DB,DB,检索数据库 (倒排数据库),检索算法基础-基本概念,名词: Doc, 文档 Word, 词 Index Term, 索引项 DocID, 文档ID WordID, 词ID Inverted Index, 倒排 Forward Sort, 顺排 Broker, 代理 Cache, 缓存(检索

2、结果) Abstract, 摘要 Query Keywords, 检索串,检索算法基础-基本概念,问题1:信息如何表示? 信息的来源? Q SINA.COM QQ Mail 如何表示? 对于非结构化信息,需要进行抽取、整理,转换成格式化信息; 格式化信息还需要进行过滤,去除无用信息,去噪; 最后表示为格式化文档,DataSrc := Doc * ;Doc := DocID,Text Field*, Num Field* ;例如:DocID := 46233597118 ;Text Field := Title: 我的博客,Text: 今天封闭开发开始了, ;Num Field : = 回复数:

3、108,QQ Rank: Lv3, ;,检索算法基础-基本概念,问题2:倒排?,原始文档,倒排索引,倒排(invert sorting),检索算法基础-基本概念,问题3:检索?,奥运会,词典,倒排文件,日程,奥运会日程,文档属性,检索算法基础-算法的分解,二分查找 HASH查找 快速排序 窗口排序 多路归并 平衡树 B+Tree SkipList ,多级索引算法 数值压缩 Bitmap索引 路由分布算法 摘要提取算法 多级相关性排序算法 内存倒排算法,针对不同应用需求,选择简单、快速的算法;,检索算法基础-常用算法,问题1: 存储? GZip压缩正文,减小文档大小; 通过路由算法进行分布式存储

4、; 平滑扩容,通过少量数据的搬迁;DOCID索引+顺序文件; 通过定期整理完成删除; 通过大小库完成数据的同步;,检索算法基础-常用算法,问题2: 索引? 索引过程分为以下几步切词,通过中文分词算法,Doc:=word string*; 建立词典,HASH 或 顺序,完成文本到编码的转换;Dict := WordID, String*; 顺排,计算Doc内部的词的排序信息,Doc:=WordID,pos,weight*; 倒排;WordID := DocID,Weight,Pos*;,检索算法基础-常用算法,问题3: 检索? 获取用户的检索串; 对检索串进行分词; 将检索串分解为词的and,o

5、r,not关系的复合; 分别读出倒排,进行and,or,not的计算; 进行相关性排序,返回top n的结果给用户。,OR,AND,AND,下载,腾讯,腾讯,搜索,检索算法基础-常用算法,问题4: CACHE? 用户检索的几个特征 63%的用户只浏览检索结果第一页; 96%的用户只浏览检索结果前三页; Cache的对象 Search results Invert files Block 三级cache Top 10000热门查询放内存cache; 余下的查询按照LRU策略放硬盘; 倒排cache策略;,检索算法基础-常用算法,问题5: 排序?文档的内部属性 词频、词性 位置、区域 格式、颜色文

6、档的外部属性 重要程度 重复度 引用数 URL 评论,文档的关系属性 Anchor Text Link关系文档的用户属性 用户login行为分析 用户检索行为特征 用户的本地方信息特征,检索算法基础-常用算法,问题6: 压缩?压缩的基本思想:以Bit作为存储的单位; 高频使用较短的位表示,低频使用较长的位表示; 有序整数序列,记录距离; 对于稀疏序列的压缩;,检索算法基础-常用算法,问题7: 分布式?文档分布,分解索引量的问题;语素分布,分解检索计算量的问题;,检索算法基础-常用算法,正文库,属性库,顺排库,倒排库,检索集群,Cache代理集群,APACHE,检索算法基础-算法难点,未来的一些

7、挑战 硬件成本过高; 应对数据量激增; 排序的难度、个性化; 快速与精确的权衡; 新介质技术的应用; 个性化的搜索;,第二部分,检索算法基础 搜索托管平台介绍 项目背景 平台介绍搜索托管平台展望,项目背景,支持R线如下项目 X 漩涡下载搜索系统 V video视频搜索 T 滔滔搜索 QQ client 消息搜索支持互联网线如下项目 QZone qzone博文搜索 QZone 个人档案搜索 QQ Show 商品搜索 QQ Photo 相册搜索 QQ Live 节目搜索 P 商品检索,项目背景问题,问题,原因,办法,沟通成本,1.尽可能减少沟通环节; 2.站在公司的角度统一规划各种专项搜索的实施节

8、奏; 3.由一个团队来主要完成大部分事情,减少接口,简化协议;,1. 部门间合作流程复杂,沟通环节较多; 2 问题解决的成本较高; 3. 大家理解问题的角度、背景不一样,需求变化大。,1. 合并相同、类似需求,在一个系统中加载多业务数据; 2.定期提供升级、优化的版本,提高用户体验; 3. 对Log,数据源特征进行挖掘,迭代优化排序效果、检索特性。 4. 对搜索相关服务质量(排序、速度、用户检索Log与质量)的持续跟进;,1.技术中心同事疲与应付各种需求的变更; 2.排序、存储、速度、优化没有空隙时间去做;,服务质量,1. 没有简单的办法能彻底避免工作量,但统一存储、计算、提供能大大缩减开发工

9、作量; 2. 尽可能复用OM系统,这些小系统有很大的相似度; 3. 稳定、复用核心算法,花少部分人力解决维护、算法中相似但不相同的细节问题;,1.数据源没有集中存储,变更不可控,带来额外工作量; 2.系统复用度低; 3. 周边的小系统太多;,工作量,1. 针对一些搜索服务,硬件资源可以复用; 2. 周边的OM系统,可以搭建好平台提供给多个业务使用; 3. 从平台系统的角度对架构与资源进行优化,减少硬件资源的使用,降低TCO成本。,1.一些搜索数据量、PV较低的业务,还有一些辅助系统占有了较多服务器; 2. 备份、容灾系统的冗余太多;,硬件成本,搜索托管平台介绍,检索服务托管,数据存储托管,服务

10、升级托管,维护、更新托管,提供XML检索协议接口; 直接提供CGI服务;,建立多业务可复用的运营、维护平台; 解决日志分析问题、内容安全等问题;,检索服务统一升级,提供更多实用、简单的特性; 提供检索log数据分析服务、界面;,提供类XML协议接口、ping协议接口; 提供文本数据存储、状态数据更新等接口;,搜索托管平台介绍,搜索托管平台介绍,服务控制单元,索引、加载单元,协议接口控制单元,Cache代理单元,数据存储单元,分布式检索单元,内存检索单元,主要功能单元分析,日志分析单元,运营维护单元,第三部分,检索算法基础 搜索托管平台介绍 搜索托管平台展望,搜索托管平台展望-流程,收集需求,托

11、管支持,统一维护,排序改进,搜索托管平台展望-流程,新需求开发,维护与支持,服务 质量改进,服务、运营质量改进,维护与支持,新需求 开发,搜索托管平台展望-计划,以托管的方式继续支持公司内新的专项搜索项目,群搜索,QZone搜索2.0,新版video搜索,新版漩涡搜索。托管平台1.0设计、部分开发完成。重点是运营维护单元、数据存储单元、协议接口单元。托管平台运维质量控制流程、新项目开发流程、新特性升级等接口流程实践。团队建设:补充相应的前台开发、后台开发、日志分析、系统运维人员。,平台2.0版本设计与开发.重点是排序优化,日志的挖掘,与应用系统接口的简化等。为paipai等关键重要业务提供健壮的搜索提供托管式检索服务。开始对腾讯内部重点数据进行分析、整理,为网页搜索补充腾讯内部各重点数据。,Q1-Q2,Q3,Q4,完成现有主要支持项目到到托管平台的迁移。托管平台1.0全部开发测试完成。包括通用的内外存索引、检索单元,排序单元。托管平台各项工作流程规范化。开始研究与采用Login后检索的体验,进行用户行为分析,包括有商业价值的数据与流量的分析。,谢谢各位,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报