收藏 分享(赏)

基于搜索引擎日志挖掘的用户行为分析.doc

上传人:精品资料 文档编号:7767652 上传时间:2019-05-25 格式:DOC 页数:8 大小:258.50KB
下载 相关 举报
基于搜索引擎日志挖掘的用户行为分析.doc_第1页
第1页 / 共8页
基于搜索引擎日志挖掘的用户行为分析.doc_第2页
第2页 / 共8页
基于搜索引擎日志挖掘的用户行为分析.doc_第3页
第3页 / 共8页
基于搜索引擎日志挖掘的用户行为分析.doc_第4页
第4页 / 共8页
基于搜索引擎日志挖掘的用户行为分析.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、基于搜索引擎日志挖掘的用户行为分析摘要:当前时代互联网技术的飞速发展,网站数量也成指数式的增长。想要把握先机,了解用户的需求和习惯,提供更好的服务,满足用户当前和未来时间的需求,需要对用户的行为和兴趣做出合理的分析,得出合适的结果,进而做出适当的预测。这是一个很有前景的方向,想要赢在时间的前面,赢在未来,对日志的分析是很有必要的。日志分析的作用也不仅于此,想要做好一个网站,必须对日志进行分析从而获取系统的运行情况和受访信息,加强对系统的维护和管理。要从数据中获取信息,来调整我的方法,改进我们的服务。关键词:搜索引擎 数据挖掘 关键词分类 行为分析 日志挖掘Based on the search

2、 engine log mining users behavior analysisAbstract:With the rapid development of science and technology,the number of web sites are also growing exponentially.In order to grasp the opportunity to understand the users needs and habits, to provide better services to meet the needs of current and futur

3、e users the time needed to make a reasonable analysis of user behavior and interests, come right result, and then make appropriate prediction. This is a promising direction, you want to win in front of the time, to win in the future, the log analysis is necessary. Log analysis of the role and not on

4、ly this, you want to do a website for log analysis must be carried out in order to gain information on the operation of the system and the respondents, enhance system maintenance and management. Obtain information from the data to adjust my approach, to improve our services.Key words:Search Engine ,

5、 Data Mining , Keywords Category , Behavior Analysis,Log Mining1 引言 伴随互联网的飞速发展,我们的生活已经和网络密不可分了。衣食住行方方面面都已经和网络紧密的联系在了一起,网上购物,预定车票,团购美食,当代的生活离开了网络,不敢想象会变成什么样子。2003 年中国搜索引擎研究报告5指出,2004 年中国搜索引擎用户已占互联网用户的95.2%,统计报告910,截止到 2005 年 12 月 31 日,我国的网民数达到了 1.11 亿.且早在 1998 年左右,部分研究者如45等就开始对商业搜索引擎的用户日志进行大规模的分析,刚过去

6、的双十一就是一个很好的例子,天猫一天的消费额达到了惊人的 571 亿。这是一个信息爆炸的时代,我们每天都湮没在海量的数据之中。这些数据都保存在网站的日志当中,管理好我们的 web 网站,不只是监视系统的运行状态和安全问题,随着 web 网站的不断更新,网站的规模和数据会与日俱增,网站的管理和维护也会变得更加复杂多样,想要对网站的管理更得心应手,在问题出现前做出合理的预测是规避风险,降低损失的有效方法,这就需要对 web 日志做出合理分析,分析来访用户,了解用户的访问请求和各个页面的访问情况,加强 web 网站的管理,改善页面的内容和质量,提高网站的服务质量。分析 web 日志,是改善网站,提高

7、服务的重要方法。搜索引擎日志是网络搜索引擎用户行为的重要载体,国内外的不少研究者都针对网络搜索引擎的用户日志进行了相关的研究。网络信息检索工具得到普及之后,面向网络信息检索的用户行为分析得到了更多的关注,Cockburn1和Catledge2等人就分别在 90 年代中期左右对 Web 用户的浏览行为进行了调研和分析通过对用户浏览记录的研究也可以,分析出用户的行为习惯和兴趣点,这能够帮助我们提高服务质量和个性化的推荐。合理的分析,也能从中发现一些关联规则,帮助我们做出合理的安排和决定。2web 日志分析原理2.1 日志格式和内容网站的日志是记录 web 服务器接收处理请求以及运行时错误等各种原始

8、信息的以log 结尾的文件,确切的讲,应该是服务器日志。网站日志最大的意义是记录网站运营中比如空间的运营情况,被访问请求的记录。通过网站日志可以清楚的得知用户在什么 IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。搜索引擎日志记录了用户的访问时间、用户 id、查询词、url 在返回结果中的位置、用户点击的顺序号、以及用户点击的 url 等。表 1 给出了搜索引擎日志的格式4表 1 搜索引擎日志格式表 2 给出 sogou 搜索引擎日志的几条日志信息:0:00:00 2.9822E+15360 安全卫士 8 7.59422E+15哄抢救

9、灾物资 1 5.22806E+1575810 部队14 6.14046E+15 绳艺 62 36 www.jd- 8.56137E+15汶川地震原因 3 2 2.39081E+16莫衷一是的意思 1 2 搜索引擎日志示例2.2 日志的分析分析日志的目的在于获取对我们有利的信息。在获取了 web 日志以后需要对日志进行分析,来帮助我们决策、改善网站的页面配置、优化业务功能、调高安全性等。日志的分析从以下几个方面进行:项目 内容T 用户访问时间Id 来访用户的网络标示Query 用户查询词Rank Url 在返回结果中的位置Order 用户点击的顺序号Url 用户点击的 url用户搜素关键

10、词分类:对于用户向服务器提交的搜索请求关键字,可以对关键字进行分类。比如将关键字分为:网站、视频、游戏、软件、图片、音乐等不同的类别。通过对分类后的关键字的统计分析,我们可以得出用户的兴趣类和搜索需求,进而我们可以对网站进行优化,对于用户搜索较多的内容给予足够的重视,提供优先化的服务,力求能给尽可能多的用户提供优质服务。用户访问时间统计:通过对用户访问服务器时间的统计,能够得出用户对网站的访问的集中时间,在闲时可以让部分服务器休息,在访问集中的时候,提高服务器的性能,满足用户的访问需求。这样不仅可以让用户获取好的用户体验,也能够让硬件系统获得适当的修护时间,延长使用寿命,是一个取得双赢的办法。

11、对用户点击 url 在返回键结果中排序的统计分析:对此项的分析,能够发现用户对推荐结果的认可程度。为了提高网站的访问量,需要对网站进行合理的优化,以使搜索引擎能够尽可能优先的把网站推荐给用户。能够被搜索引擎捕获并在搜素结果中推荐出来时一个网站发展壮大的方法。用户查询关键字长度分析:查询的长度主要指的是用户提交的查询中包含几个词语或字,分析结果中英文的占比等。词类长短的分析可以看出用户的搜索是简单还是趋向于精确。中英文的比较可以看出,中英文在日常生活的使用。这对分析用户的行为习惯很有帮助,只有对用户需求深入分析,我们才能取得更多的经验,提供用户需要的服务。3 搜狗搜索引擎日志分析搜狗设计了一个搜

12、狗搜索引擎查询日志库,库里包含了 1 个月(2008 年 6 月)Sogou 搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。本文的数据信息均来自于此语料库。以下是根据语料库中的数据,得出的一些分析统计结果。3.1 对用户搜素兴趣关键词的分类从预料库中抽取的 2 次 2000 个关键词进行分类统计,统计发现:第一次 2000 个词中有 685 个重复项;第二次 2000 个词中有 709 个词是重复的;对 4000 个词的测试中显示 1978 个词是重复的;6000 个词中有 3560 个重复;8000 个中有 4640 个

13、重复;10000 词的测试中显示 5939 个词是重复的。重复词占关键词的比例如下图 1:图 1 重复词占比图从图 1 中我们可以看到,重复词所占比例越来越高,在 10000 个词的时候已经达到了 60%,有一半以上的词都是重复出现的。这个情况可能是由于用户多次搜索某个关键词导致的,而且某一时间段,比如某个新闻或者热点问题的出现可能导致用户搜索的重复和集中。用户所搜关键词分类:比如 360 安全卫士归为软件类,汶川地震归为新闻,百度一下归为网站等。在6中指出,用户的查询任务包括导航类、信息类和事物类等三类。以下图 2 是对 2000 个词的样本数据的分类结果。图 2 用户搜索关键词分类图关键词

14、的分类结果中,可以清晰的看出对视频、网站、精确字符搜索、生活相关、游戏等的搜索量占得比较多。游戏、视频、音乐等娱乐相关类的总和占去了很大一部分搜索量,这从侧面反映了大量用户生活中互联网多数的时候还是用在休闲娱乐方面。生活相关的方面:比如车票信息的查询,附近银行的查询也是用户搜索比较多的,这反映了用户生活对互联网的一定的依赖度。一些基于位置的服务:比如附近的银行,医院,游乐场的搜索,同样很具有开发的价值。另外,对专业知识的搜索,软件应用的搜索页占去了一部分,这部分是对特殊行业和专业学习的查询。还有一部分是分类不明确的搜索,这样的申请一般无法搜到需要的信息,体现了搜索用户的方法和选取的关键词不够准

15、确。3.2 第二、用户访问时间的分析这个分析旨在发现用户搜索集中的时间段,进而根据用户需求提供服务。对部分搜狗搜索引擎服务器日志某一天的数据统计。结果如下图 3:图 3 用户访问量曲线图从每个小时的搜索量变化折线图可以看出:5 - 8 点:搜索量缓慢增多;8 - 11 点:搜索量迅速增高;11-23 点:搜索量保持在较高水平稳定波动;23-次日 5 点:搜索量在不断下降上述搜索量的变化和生活中的直观感受是一致的,每天从早上开始用户开始活跃起来,到上午11 点中时候基本上活跃的用户达到了顶点,整个白天用户都保持在一个较高的活跃状态,过了 23点以后,用户开始陆续休息,网络的访问量也开始不断下降,

16、此刻的网络业开始沉寂,第二天的早晨开始,网络的访问量又开始恢复,进而周而复始的变化。当然相信会存在集中和爆发式的网络访问,比如双十一的淘宝网,或是热点新闻等。3.3 第三、对于用户点击的 url 在返回结果中序号的分析分析此项的意图是为了获取用户的习惯,一般对什么位置的返回结果的认可度更高。图中是对2000 个搜索结果的统计分析结果:横坐标表示 url 在返回结果的排序位置,纵坐标表示用户个数。图 4:图 4 用户点击的 url 排序曲线图从上图中可以看到,用户点击的 url 随排序位置上升成指数式的下降。一方面返回结果对词条的点击概率有很大的影响,在越后的位置被点击的概率越小,从而网站的访问

17、量也会越小;另一方面词条和用户提交的关键词的性关系导致的排序先后问题,想要有更对的机会被访问,就需要不断地优化网站,提供多样化的服务,以尽可能被搜索引擎放在优先的位置。深入的分析我们会发现,一些潜在的问题。对比排序在前 20 位置的点击量可以发现一些有趣的东西:下图 5 是前 20 的位置上的点击量的统计结果(2000 个搜索结果的样例)。图 5 url 排序对比图观察不难发现,图中显示的信息和上面总体的分析结果是一致的。深入分析会发现:首先,排名在第 1 位的点击量 699 远远超过第 2 位的 340。这个不难理解,大家对第 1 位的认可度是最高的,服务器的推荐结果也是如此;第二,前三位和

18、在一起是 1239,占了总和的 60%以上,这体现了用户对优先推荐的认可。第三,1-10 的点击量虽然在不断下降,但是依旧保持在一个比较高的水平,第 11 的位置就突然跳到了 19 次,远远低于 10 的 59 次。这是因为浏览器上每页一般是 10 个推荐结果,前 10 的都在第一页,位置靠后一点的点击量会下降,但是仍是比较高的。第 11 个往后,会显示在第二页上,这一页的每个选项,基本每页太大的差别,都基本保持在 15 个左右,从第 10 到第 11 的突变,就是因为换页的原因。到第三页以后被选中的可能性就相对小很多了。因为如果想做好一个网站,在同类网站当中能被搜索引擎安排在前几页的位置相当

19、重要。3.4 第四、对用户搜索关键词的分析:此处分析了关键词长度和关键词的部分内容在对 2000 个例子的统计结果如下图 6。图 6 关键长度分布图1、从关键词的长度来看,字符的长度集中在 2-9 个字符之间,4-7 个字符的最为集中,尤其是6 个字符长度的关键词最多。长度为 1 的字符串和超过 10 个字符的关键词都是很少出现的。从这里不难看出用户的搜索习惯都是比较简单的。2、其次在对关键词分类的讨论中,有一定数量的搜索时针对专业知识的,并且一部分是直接对 url 来进行搜索的,这都是很精准的搜索,用户的水平和层次一般也相对较高。这一部分占得比较少,直接输入 url 的大概有 1.75%。4

20、 总结与讨论通过对搜索引擎日志的分析,我们可以粗略的得到一些结论。鉴于原始数据集比较小,抽取的数据也比较少,得出的结论可能存在一定的偏差,也因为突发和偶然的因素导致分析的结果不一定十分正确。本文粗略的对上述内容做个总结。首先,在我们的分析统计中可以发现,用户提交的搜索内容主要集中在几个部分:如生活娱乐、专业知识和新闻网站等的搜索。用户知识水平和逻辑能力的不同,导致部分提交的关键词可能无法获取真正想要的信息,比如“下载”等词。因为没有明确名词内容,可能最终只会返回这个词的解释,而并不是用户需要的某种应用或者资源的下载。还有一部分的用户申请就是一些无序无意义的字符堆砌,这样的可能是输入错误,一般也

21、无法得到想要的答案。这是用户水平比较低的问题,想要获取对自己有用的信息,就需要找对关键词,这需要用户自身来提高自己的知识水平。在关键词的统计中,有很大一部分关键词在短时间内是重复出现的,这可能是信息集中爆发的结果,也有可能是用户的多次搜索导致的,我们在对样例的分析中发现,随着数据量的增多,重复率也随着提高。其次,从用户点击的 url 排序图不难看出,极大多数的用户都只关注前几页的返回结果,前三项就占了 60%,首页项占到了 93.75%,从这里可以看出, 3 页以后的选项就很少有机会被浏览到。因此想要把网站建好,合适的域名,优化的网页设计,良好的用户体验以及好的搜索引擎推荐都是很关键的。网站的

22、发展壮大很多一部分源于搜索引擎的支持。第三,在对用户访问量的分析中发现,网站的访问量也随着用户的作息习惯在波动,这个规律是显而易见也易于理解的,因为网络都是人在操作的,因此,在一个特定的区域内网络的活跃情况伴随着人的活动规律变化是很好理解的。参考文献:1 Cockburn, A., & Jones, S. (1996). Which way now? Analysing and easing inadequacies in WWW navigation. International Journal of Human-Computer Studies, 45, 105-129. 2 Catled

23、ge, L. D., & Pitkow, J. E. (1995). Characterizing Browsing Strategies in the World-Wide Web. Computer Networks and ISDN Systems, 27, 1065-1073. 3 余慧佳,刘奕群,张敏,茹立云,马少平,基于大规模日志分析的网络搜索引擎用户行为分析 .第三届学生计算语言学研讨会(SWCL2006)4张波.web 服务器日志分析的原理和技术 .(2000) 第五届科学数据库与信息技术学术研讨会.5 搜索引擎调查报告,上海艾瑞市场咨询有限公司,2004 年 1 月6 And

24、rei Broder, A taxonomy of web search. In SIGIR Forum, fall 2002, Volume 36 Number2. 7 Craig Silverstein, Monika Henzinger, Hannes Marais, et al. Analysis of a very large Web search engine query log. In SIGIR Forum , fall 1998, Volumn 33 Number 1, 6-12. 8 Jansen, B. J., Spink, A., Bateman, J., & Saracevic, T. (1998). Real life information retrieval: A study of user queries on the Web. SIGIR Forum, 32(1), 5-17. 9 第 14 次中国互联网络发展状况统计报告,中国互联网络信息中心(CNNIC),2004 年 7 月。10 第 15 次中国互联网络发展状况统计报告,中国互联网络信息中心(CNNIC),2005 年 1 月。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报