收藏 分享(赏)

采集教程.doc

上传人:hwpkd79526 文档编号:8942487 上传时间:2019-07-17 格式:DOC 页数:8 大小:837KB
下载 相关 举报
采集教程.doc_第1页
第1页 / 共8页
采集教程.doc_第2页
第2页 / 共8页
采集教程.doc_第3页
第3页 / 共8页
采集教程.doc_第4页
第4页 / 共8页
采集教程.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、大家好,我是袭水无痕,你可以叫我无痕最近看到好多人对采集比较感兴趣,所以就针对无忧的采集插件做一个小小的教程,希望能够帮助到大家:首先,我先谢谢 mscga 开发出了无忧文章系统,我超级喜欢其次,还应该感谢郭郭,编写出无忧的采集插件.教程导航:一、首页界面功能 简介二、新建采集页面功能简介三、采集规则的 完善四、列表页网址区域 设置五、列表页网址采集设置六、内容页标题采集设置七、内容页正文采集 设置八、利用演示测试规则设置经过了一天的时间,终于完成了这个教程,因为个人的水平和时间关系,教程有些简单,有哪些讲的不是很清楚的地方请大家原谅。这里面仅仅是采集的一小部分知识,最主要的是采集文章的伪原创

2、,以及采集文章后的防采集设置,因为你也不想自己辛辛苦苦采集回来的伪原创数据再让别人继续复制吧。更多的功能还是靠大家自己多努力摸索和测试吧采集的软件有很多,如果你不满足这个插件的功能,你可以试试火车头采集,ET 采集。做个广告:领航者-http:/袭水无痕-http:/ (数据还没有)第一个站要做链接的可以联系我 下面开始我们的教程:首先,根据你安装无忧文章系统的编码,选择不同编码的采集插件下载,然后安装,安装过程我不再演示,比较简单,相信大家都可以完成.一、安装之后,进入采集插件管理页面,就如下图了:功能说明:1.新建采集:建立一个新的采集规则2.编辑:编辑已有的采集规则3.演示:测试编写的规

3、则是否正确4.采集:当演示成功,就可以采集了5.克隆:复制当前的采集规则到一个新的采集规则6.删除:删除当前的采集规则二、新建采集规则新建一个采集规则,会弹出一个如下图的界面,我已经把每项功能标注了一下。采集最终要的部分就是可以让程序分析出你所要采集内容的开始与结束,所以我们的工作就是通过源代码分析,找到所要采集内容的开始符与结束符需要注意的是,采集内容的开始符与结束符必须在本页面的源代码中是唯一的。在某些时候,结束符可以不唯一,这个情况我们在下面教程中特殊标注三、采集规则的完善具体的采集规则我以网页的形式保存了下来,你可以在压缩包中看到我以 http:/ 为目标进行采集列表网址区域设置首先打

4、开列表页面,http:/ 3/4 的面积,我们首先要分析,列表的开始与结束,第一步:右击网页,选择查看源代码可以发现网页中有段和 两段字符,在这两段的中间就是我们要采集内容页面的各个地址我们就可以填入下面:$列表$但是如果你仔细观察:就会发现在这个区域里面含有列表页的网址,在下面采集文章页面地址时,可能会出现错误,所以在这里我们缩小区域在列表分页区域的开始的部分有下面代码而且这段代码在整个页面中都是唯一的,所以我们以这个为列表页内容网址区域结束符$列表$列表页文章网址采集设置在上面的列表页的网址区域,找到一篇文章的网址代码2009-3-25 10:53:17波斯王子 4最强连击招式E+E+空格

5、(这时候空中有 3 个连击机会)+E+E+R+空格(又有 2 个机会)+E+ 剑,应该是结束了!不过这个招式前可以有 3 次普通连击 剑+剑 +剑 再加刚才的招式那伤害就更高了,但 剑+剑+剑 后是有机会被打断. 阅读全文点击:0评论:0 作者:Admin来源:2009-3-25 10:52:13波斯王子 4PC 手柄设置指南进入设置的方法 :OPTIONS-CONTROLS-DEFINE CONTROLS (应该手柄都可以识别的,直接改键盘的按钮为手柄的就可以了) 由于 360 手柄可以完美识别,所以省略.本人是拆机出来的 PS2.阅读全文点击:0评论:0 作者:Admin来源:在以上代码中

6、,找到本篇文章的链接地址1.2009-3-25 10:53:17波斯王子 4最强连击招式2. 阅读全文以上都是本篇文章的网址链接,我们选择一个作为网址分析1. 用”$网址$”字符替换上面的网址就变成了2. 阅读全文用”$网址$”字符替换上面的网址就变成了阅读全文上面两个都可以作为文章网址分析设置以上就是对列表页的分析工作,下面的设置都是对文章页的分析,分析文章的题目,内容,作者,来源,发表日期,关键字等.标题采集设置因为大部分的设置都相同,我只以文章的题目,内容作为例子进行讲解随便找到一篇文章,右击查看源代码,在源代码页用查找功能查找本页的题目以此页为例子 http:/ the 3rd支线攻略

7、在本页源代码查找以上关键词,会发现有两处1. 英雄传说空之轨迹 the 3rd支线攻略 - 领航者2. 英雄传说空之轨迹 the 3rd支线攻略直接用“$标题 $”替换上面的标题内容1. $标题$- 领航者2. $标题$注意:必须保证代码和代码在本页的唯一性,标题过滤功能,你可以根据需要,进行字符过滤或字符替换1.字符过滤,你可以将上面标题匹配设置成$标题$然后利用过过滤功能添加以下语句- 领航者= (空格)也可以保证采集到正确的标题英雄传说空之轨迹 the 3rd支线攻略2.字符替换将一些字符替换成近义词的,例如添加攻略=秘籍这样采集到得题目就是英雄传说空之轨迹 the 3rd支线秘籍就可以

8、将文章标题伪原创化内容采集匹配设置这个设置也遵循匹配标识唯一性的原则进行设置注意:这里面有两个问题1.正文选择区域里有段阿里妈妈的广告,是利用调取的,所以可以在下面的标记过滤勾选上过滤2.本文章是多页的,下面着重讲解多页采集,不过需要保证正文匹配设置适用于每一个分页分页设置1.分页匹配字符$分页$主要是找出分页网址的区域,2.分页网址匹配字符a href=“$网址$“这些设置类似于列表页分析网址的设置,首先是确定网址的区域,然后通过网址的特点分析出每个网址利用演示功能测试当全部设置完毕以后,提交以后,会退回下面的界面,然后就是测试设置是否是正确的,点击演示点击演示后,会出现两种情况1 设置正确:这时会出现采集结果 ,这时就可以就可以直接点击开始采集就可以开始了最好多测试一些不同的页面,以保证设置没有错误.2 设置错误:这时会提示你哪里出错了 ,帮助你修正

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报