ImageVerifierCode 换一换
格式:DOC , 页数:4 ,大小:25.50KB ,
资源ID:6565721      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-6565721.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(搜索引擎中文分词技术.doc)为本站会员(dcs1276)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

搜索引擎中文分词技术.doc

1、分词技术 : 什么是分词, 如何分词搜索引擎会承认,这次第一位朋友提的问题,想必大家也听说过,很好奇,什么是分词技术,什么又是百度分词呢?分词大家容易理解。就是一段词用字符分开,比如标点符号,空格等。那什么叫分词技术呢?分词技术就是 SE 针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。大家好好理解。那么我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索隐藏接收到用户的信息要做一系列的处理。首先是到数据库里面索引相关的信息,这就是查询处理,那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过 3 个的中文字,

2、就会直接到数据库索引词汇。超过 4 个中文字的,首先用分隔符比如空格,标点符号,将查询串分割成若干子查询串。举个例子。 “什么是百度分词技术” 我们就会把这个词分割成“ 什么是,百度,分词技术。 ”这种分词方法叫做反向匹配法。2.然后再看用户提供的这个词有没有重复词汇。如果有的话,会丢弃掉,默认为一个词汇。接下来检查用户提交的字符串,有没有字母和数字。如果有的话,就把字母和数字认为一个词。好了,这就是 SE 的查询处理。讲了查询处理后,大家对分词技术,尤其是中文分词技术有了一个基本的了解。其实我讲的都是搜索引擎的原理。好了,我接下来讲分词的原理。我们用百度来举例百度是如何来分词的呢?分词技术现

3、今非常成熟了。他分为 3 种技术。1.字符串匹配的分词方法2.词义分词法。3.统计分此法。先说第一种。也是常用的分词法,百度就是用此种分词。字符串匹配的分词方法,他又分为 3 中分词方法。1.正向最大匹配法什么意思呢?就是把一个词从左至右来分词。举个例子。“不知道你在说什么”这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”与正向最大匹配法相对应的是反向最大匹配发。这是第二种分词方法。2.反向最大匹配法 来分上面我举的例子是如何分的呢 “不知道你在说什么“。反向最大匹配法来分上面这段是如何分的。 “不,知道,你在,说,什么” ,这个就分的比较多了,反向最大匹配法就是从右至左。3.

4、就是最短路径分词法。这个什么理解呢 ,就是说 我一段话里面要求切出的词数是最少的。还是上面哪句话“不知道你在说什么”最短路径分词法就是指,我把上面哪句话分成的词要是最少的。不知道,你在,说什么,这就是最短路径分词法,分出来就只有 3 个词了 。好了,当然还有上面三种可以相互结合组成一些分词方法。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。好了,第一种说完了,2.词义分词法。这种其实就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟。处在测试阶段。第三种,统计的分词方法。这个很简单,就是根据词

5、组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如, “我的,你的,许多的,这里,这一,那里” 。等等,这些词出现的比较多,就从这些词里面分开来。好了,分词技术讲完了。那么我们刚刚学了分词技术,又如何来运用他们为我们的站点获得流量呢1.我们可以利用分词技术来增加我们站点长尾词。这样就可以获取流量排名。不但这些分出来的长尾词能够获取一定的排名,也能够推动站点的目标关键词获取很好的排名。这个原理就是内链原理,这里不再讲了。讲了这么多,我们举个例子。例如:三亚酒店预定,如何来分呢?正向最大匹配,反向最大匹配,双向最大匹配,最短链接匹

6、配。1.正向最大匹配“三亚,酒店预定”2.反向最大匹配“三亚酒店,预定”3.双向最大匹配“三亚,酒店,预定”4.最短路径最大匹配。“三亚酒店预定”好了,我们分了词为“三亚, “酒店预定,预定,三亚酒店,三亚,酒店 ,三亚酒店预定。 ”-佛山办公家具佛山,办公家具 佛山办公,家具 佛山,办公,家具 佛山办公家具-这些词每个都可以做一个主题页为目标关键词这些分出来的词,把他们都作为你站点的主题页,导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。用锚链接,指向主页的目标关键词。呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给站点带来一定流量。一旦导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。用锚链接,指向主页的目标关键词。呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给站点带来一定流量。分词还有一种好处。那就是提升内页的排名。好的,这个我就不详细讲了。因为我在 SEOWHY 已经写了一篇文章。大家可以去看一下。就是关于百度,捕获描述的文章。如果你的内页不做描述,那么百度就会给你定义一个描述或者从你的页面捕获一个描述。在捕获描述的时候,如果你的知道他会捕获哪一段,那么你说,你的排名会不会上升。你就刻意写哪一段。

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报