1、1搜索引擎的分词机制(木木长官)長官(4651130) 14:57:53今天我来给大家讲下 搜索引擎的分词机制長官(4651130) 14:57:58准备下 马上就开始 長官(4651130) 15:00:36在搜索引擎中 用户提交的搜索内容会被后台提交到数据库与数据库中的数据来对比,从中调出相应的数据。(这些东西做程序的可能了解)与普通网站的站内搜索类似長官(4651130) 15:01:38下面举例:比如你想要搜索的是 “京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹”这个语句的时候長官(4651130) 15:02:40如果搜索引擎 直接用 你段话与数据库中的数据来对比。肯定搜索不出来
2、任何数据。因为 这个是我自己随便写的。長官(4651130) 15:03:26但是搜索引擎又不能叫客户搜索不到东西,所以他们用到了中文分词 和英文分词長官(4651130) 15:03:42今天主要说中文 英文以后在说長官(4651130) 15:04:50当它用了分词后,用过动易 CMS 系统的朋友,应该知道。他们采集后的数据,会把标题分割成 2 个字一组的关键词。長官(4651130) 15:04:58比如:京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹長官(4651130) 15:05:55这个标题 动易的分词机制是这么分:京珠|珠高|高速|速的|的火|火车|车出|出轨|轨并|并且|且
3、无|无一|一人|人伤|伤亡|亡天|天上|上也|也掉|掉下|下冰|冰雹它把每个字前一个和后一个自动组合,虽然不合理,但是有一定的技术含量在里面。長官(4651130) 15:06:39之所以 把词拆分开,就是为了与数据库中的相应数据来对比長官(4651130) 15:08:10搜索引擎可以这样做分词(前提是因为数据库中有相应的数据库,还有临时数据库!这些后面有介绍)長官(4651130) 15:09:03京珠|高速|的|火车|出轨|并且|无一人|伤亡|天上|也掉|下|冰雹長官(4651130) 15:09:352也可以这样分長官(4651130) 15:10:42京珠高速|的|火车出轨|并且|无
4、一人|伤亡|天上|也|掉下|冰雹長官(4651130) 15:11:51怎么个分词方法是根据搜索引擎的数据库与算发有直接的关系長官(4651130) 15:12:22比如 百度搜索引擎長官(4651130) 15:13:23这样可以简单的看出他是怎么分的長官(4651130) 15:13:27長官(4651130) 15:14:45京珠高速|的|火车出轨|并且无一|人伤亡|天上|也掉下冰雹長官(4651130) 15:16:02京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹長官(4651130) 15:17:22下面来看看百度搜索引擎中的分词的理解与实践長官(465113
5、0) 15:17:48長官(4651130) 15:18:15大家可以看到 这个是百度中的分法(不能一概而论)長官(4651130) 15:19:07可以看出 我在上面所规划出的词長官(4651130) 15:19:10長官(4651130) 15:16:02京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹長官(4651130) 15:19:13这个来長官(4651130) 15:19:41長官(4651130) 15:20:01而第二个呢長官(4651130) 15:20:08就与上面有些出入了長官(4651130) 15:21:08这些就是在 数据库中 所存的数据 也可
6、以说是字典3長官(4651130) 15:21:17http:/ 15:21:26大家可以打开这个地址看一下 長官(4651130) 15:21:28一会在看哦 長官(4651130) 15:23:20当 这站上的某个页面上出现了我刚才搜索的语句,搜索引擎把他分词,当查寻不到的时候,引擎中还会在把分过的词,或者原句在从新的分词長官(4651130) 15:23:54也就是相当于 比如搜索的是某个成语長官(4651130) 15:24:37胸有成竹 东山再起長官(4651130) 15:25:02刚刚我用的是只能 ABC 打出来的長官(4651130) 15:25:49直接拼音出来 胸有成竹 东
7、山再起 这两个就能直接打出来。搜索引擎的数据库 原理是类似 長官(4651130) 15:26:45比如你刚刚搜索的是 胸有成竹 这个成语長官(4651130) 15:27:04http:/ 15:27:29長官(4651130) 15:27:57百度中主要是先用这个词来与数据库中的数据来对比長官(4651130) 15:29:01如果 数据库中的数据有这个词 那么就先从这写词开始,然后在晒选,根据百度的规则,竟价等 来顺序的显示数据長官(4651130) 15:29:40http:/ 15:30:06当中间出现空格的话 胸有 成竹長官(4651130) 15:30:394这就自动当成 2 个
8、词语来算長官(4651130) 15:30:36長官(4651130) 15:31:35当你搜索拼音的时候 为什么岢鱿窒嘤 氖 菽?長官(4651130) 15:31:57http:/ 15:32:22長官(4651130) 15:32:42因为他们的数据库中有拼音对比中文的数据库長官(4651130) 15:33:10cpu(330327631) 15:33:30长官图片出不来長官(4651130) 15:33:54長官(4651130) 15:34:15现在 本来搜索的是拼音 tiananmen 而排在前面的是中文的,这就是百度讨厌的地方,因为他想怎么做就怎么做 長官(4651130) 1
9、5:35:00http:/ 15:35:27長官(4651130) 15:35:43还有错别字纠正長官(4651130) 15:37:21他这些,也是从数据库中来对比的。个人认为他们是在临时的数据库。当一个词搜索量高的时候,这个词就会写入临时数据库中,来对比長官(4651130) 15:38:06下面简单的介绍下 GG 的長官(4651130) 15:38:54http:/ 15:39:07还是上面那句话,京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹長官(4651130) 15:40:00大家可以看到 GG 的中文确实不如百度做的好長官(4651130) 15:40:16長官(465113
10、0) 15:41:03这些搜索字词都已标明如下: 京 并且 无 天上 也 掉 下 这些搜索字词仅在指向此网页的链接中出现: 珠 高速 火车 出轨 一人 伤亡 冰雹 長官(4651130) 15:41:17这些是 GG 中标明的長官(4651130) 15:42:28京珠|高速|的|火车|出轨|并且|无一人|伤亡|天上|也掉|下冰雹(掉下)(冰雹)这些是我之前所根据自己的思维来划分的词長官(4651130) 15:43:46搜索引擎中 还有一个重点就是 長官(4651130) 15:45:03当这个词出现的时候 他们做的是 从左到右或者是 从右到左 这么判断分析長官(4651130) 15:46
11、:08http:/ 15:46:15http:/ 15:46:49大家可以看这两个词的 相关网页数量是相同的 都是 4,120,000 篇長官(4651130) 15:48:00以上就是搜索引擎中的分词机构注明:以上信息全是我个人经过这几年从体验中判断的,并不表示一定的正确性長官(4651130) 15:48:14長官(4651130) 15:48:00以上就是搜索引擎中的分词机制注明:以上信息全是我个人经过这几年从体验中判断的,并不表示一定的正确性長官(4651130) 15:48:166打错字了長官(4651130) 15:49:42补充一下 如果你搜索完天天赚钱这个词后,在和天天 赚钱这两个词对比一下,如果相同,就说明这个是搜索中的分词長官(4651130) 15:49:53解释下上面说到的数据库刷新(287835456) 15:52:23長官(4651130) 15:52:29一会我去论坛上发表,在有一个就是补充,书本汉语自动分词系统-cdwd.PDF 电子书上面结实的比较详细 如果数学好的朋友 可以根据算法 体验中间的奥秘好好学习(172088368) 15:52:35辛苦长官了! 長官(4651130) 15:52:37谢谢大家 今天到这里