ImageVerifierCode 换一换
格式:PPT , 页数:29 ,大小:2.97MB ,
资源ID:5389252      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-5389252.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(企业级搜索托管平台介绍.ppt)为本站会员(scg750829)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

企业级搜索托管平台介绍.ppt

1、企业级搜索托管平台介绍,Smith. 2008.3.26. 搜索技术中心.,目录,检索算法基础 搜索托管平台介绍 搜索托管平台展望,第一部分,检索算法基础 基本概念 基本算法 算法难点 搜索托管平台介绍 搜索托管平台展望,检索算法基础-基本概念,正文数据库,相关结果检索,响应,检索 格式化,DB,DB,DB,检索数据库 (倒排数据库),检索算法基础-基本概念,名词: Doc, 文档 Word, 词 Index Term, 索引项 DocID, 文档ID WordID, 词ID Inverted Index, 倒排 Forward Sort, 顺排 Broker, 代理 Cache, 缓存(检索

2、结果) Abstract, 摘要 Query Keywords, 检索串,检索算法基础-基本概念,问题1:信息如何表示? 信息的来源? Q SINA.COM QQ Mail 如何表示? 对于非结构化信息,需要进行抽取、整理,转换成格式化信息; 格式化信息还需要进行过滤,去除无用信息,去噪; 最后表示为格式化文档,DataSrc := Doc * ;Doc := DocID,Text Field*, Num Field* ;例如:DocID := 46233597118 ;Text Field := Title: 我的博客,Text: 今天封闭开发开始了, ;Num Field : = 回复数:

3、108,QQ Rank: Lv3, ;,检索算法基础-基本概念,问题2:倒排?,原始文档,倒排索引,倒排(invert sorting),检索算法基础-基本概念,问题3:检索?,奥运会,词典,倒排文件,日程,奥运会日程,文档属性,检索算法基础-算法的分解,二分查找 HASH查找 快速排序 窗口排序 多路归并 平衡树 B+Tree SkipList ,多级索引算法 数值压缩 Bitmap索引 路由分布算法 摘要提取算法 多级相关性排序算法 内存倒排算法,针对不同应用需求,选择简单、快速的算法;,检索算法基础-常用算法,问题1: 存储? GZip压缩正文,减小文档大小; 通过路由算法进行分布式存储

4、; 平滑扩容,通过少量数据的搬迁;DOCID索引+顺序文件; 通过定期整理完成删除; 通过大小库完成数据的同步;,检索算法基础-常用算法,问题2: 索引? 索引过程分为以下几步切词,通过中文分词算法,Doc:=word string*; 建立词典,HASH 或 顺序,完成文本到编码的转换;Dict := WordID, String*; 顺排,计算Doc内部的词的排序信息,Doc:=WordID,pos,weight*; 倒排;WordID := DocID,Weight,Pos*;,检索算法基础-常用算法,问题3: 检索? 获取用户的检索串; 对检索串进行分词; 将检索串分解为词的and,o

5、r,not关系的复合; 分别读出倒排,进行and,or,not的计算; 进行相关性排序,返回top n的结果给用户。,OR,AND,AND,下载,腾讯,腾讯,搜索,检索算法基础-常用算法,问题4: CACHE? 用户检索的几个特征 63%的用户只浏览检索结果第一页; 96%的用户只浏览检索结果前三页; Cache的对象 Search results Invert files Block 三级cache Top 10000热门查询放内存cache; 余下的查询按照LRU策略放硬盘; 倒排cache策略;,检索算法基础-常用算法,问题5: 排序?文档的内部属性 词频、词性 位置、区域 格式、颜色文

6、档的外部属性 重要程度 重复度 引用数 URL 评论,文档的关系属性 Anchor Text Link关系文档的用户属性 用户login行为分析 用户检索行为特征 用户的本地方信息特征,检索算法基础-常用算法,问题6: 压缩?压缩的基本思想:以Bit作为存储的单位; 高频使用较短的位表示,低频使用较长的位表示; 有序整数序列,记录距离; 对于稀疏序列的压缩;,检索算法基础-常用算法,问题7: 分布式?文档分布,分解索引量的问题;语素分布,分解检索计算量的问题;,检索算法基础-常用算法,正文库,属性库,顺排库,倒排库,检索集群,Cache代理集群,APACHE,检索算法基础-算法难点,未来的一些

7、挑战 硬件成本过高; 应对数据量激增; 排序的难度、个性化; 快速与精确的权衡; 新介质技术的应用; 个性化的搜索;,第二部分,检索算法基础 搜索托管平台介绍 项目背景 平台介绍搜索托管平台展望,项目背景,支持R线如下项目 X 漩涡下载搜索系统 V video视频搜索 T 滔滔搜索 QQ client 消息搜索支持互联网线如下项目 QZone qzone博文搜索 QZone 个人档案搜索 QQ Show 商品搜索 QQ Photo 相册搜索 QQ Live 节目搜索 P 商品检索,项目背景问题,问题,原因,办法,沟通成本,1.尽可能减少沟通环节; 2.站在公司的角度统一规划各种专项搜索的实施节

8、奏; 3.由一个团队来主要完成大部分事情,减少接口,简化协议;,1. 部门间合作流程复杂,沟通环节较多; 2 问题解决的成本较高; 3. 大家理解问题的角度、背景不一样,需求变化大。,1. 合并相同、类似需求,在一个系统中加载多业务数据; 2.定期提供升级、优化的版本,提高用户体验; 3. 对Log,数据源特征进行挖掘,迭代优化排序效果、检索特性。 4. 对搜索相关服务质量(排序、速度、用户检索Log与质量)的持续跟进;,1.技术中心同事疲与应付各种需求的变更; 2.排序、存储、速度、优化没有空隙时间去做;,服务质量,1. 没有简单的办法能彻底避免工作量,但统一存储、计算、提供能大大缩减开发工

9、作量; 2. 尽可能复用OM系统,这些小系统有很大的相似度; 3. 稳定、复用核心算法,花少部分人力解决维护、算法中相似但不相同的细节问题;,1.数据源没有集中存储,变更不可控,带来额外工作量; 2.系统复用度低; 3. 周边的小系统太多;,工作量,1. 针对一些搜索服务,硬件资源可以复用; 2. 周边的OM系统,可以搭建好平台提供给多个业务使用; 3. 从平台系统的角度对架构与资源进行优化,减少硬件资源的使用,降低TCO成本。,1.一些搜索数据量、PV较低的业务,还有一些辅助系统占有了较多服务器; 2. 备份、容灾系统的冗余太多;,硬件成本,搜索托管平台介绍,检索服务托管,数据存储托管,服务

10、升级托管,维护、更新托管,提供XML检索协议接口; 直接提供CGI服务;,建立多业务可复用的运营、维护平台; 解决日志分析问题、内容安全等问题;,检索服务统一升级,提供更多实用、简单的特性; 提供检索log数据分析服务、界面;,提供类XML协议接口、ping协议接口; 提供文本数据存储、状态数据更新等接口;,搜索托管平台介绍,搜索托管平台介绍,服务控制单元,索引、加载单元,协议接口控制单元,Cache代理单元,数据存储单元,分布式检索单元,内存检索单元,主要功能单元分析,日志分析单元,运营维护单元,第三部分,检索算法基础 搜索托管平台介绍 搜索托管平台展望,搜索托管平台展望-流程,收集需求,托

11、管支持,统一维护,排序改进,搜索托管平台展望-流程,新需求开发,维护与支持,服务 质量改进,服务、运营质量改进,维护与支持,新需求 开发,搜索托管平台展望-计划,以托管的方式继续支持公司内新的专项搜索项目,群搜索,QZone搜索2.0,新版video搜索,新版漩涡搜索。托管平台1.0设计、部分开发完成。重点是运营维护单元、数据存储单元、协议接口单元。托管平台运维质量控制流程、新项目开发流程、新特性升级等接口流程实践。团队建设:补充相应的前台开发、后台开发、日志分析、系统运维人员。,平台2.0版本设计与开发.重点是排序优化,日志的挖掘,与应用系统接口的简化等。为paipai等关键重要业务提供健壮的搜索提供托管式检索服务。开始对腾讯内部重点数据进行分析、整理,为网页搜索补充腾讯内部各重点数据。,Q1-Q2,Q3,Q4,完成现有主要支持项目到到托管平台的迁移。托管平台1.0全部开发测试完成。包括通用的内外存索引、检索单元,排序单元。托管平台各项工作流程规范化。开始研究与采用Login后检索的体验,进行用户行为分析,包括有商业价值的数据与流量的分析。,谢谢各位,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报