ImageVerifierCode 换一换
格式:PPTX , 页数:28 ,大小:971.54KB ,
资源ID:4192029      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-4192029.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(火车头采集器介绍及使用流程说明.pptx)为本站会员(weiwoduzun)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

火车头采集器介绍及使用流程说明.pptx

1、火车头采集器 介绍及使用流程说明,目录,一、软件介绍二、创建任务三、采集网址四、采集内容五、字段处理,一、软件介绍,火车采集器能为您做些什么呢? 1、网站内容维护:可以定时采集新闻、文章等任何您想采集的内容,并自动发布到您的网站。 2、Internet数据挖掘:可以从指定网站抓取所需数据,通过分析和处理后保存到您的数据库。 3、网络信息监控:通过自动采集,可以监控论坛等社区类网站,让您第一时间发现您所关注的内容。 4、文件批量下载:可以批量下载PDF、RAR、图片等各种文件,并同时采集其相关信息。 火车采集器是目前信息采集与信息挖掘处理类软件中最流行、性价比最高、使用人数最多、市场占有率最大、

2、使用周期最长的智能采集程序。,一、软件介绍,火车采集器数据发布原理: 在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对种据进行处理。 .不做任何处理。因为数据本身是保存在数据库的(access或是db3),您如果只是想看一下,直接用相关软件查看就可以了。 .web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。 .直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。 .保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。,二、创建任务,打开火车头软件,界面如下:,二、创建任务,1.新建

3、分组,填写分组名称,二、创建任务,2.新建任务,填写任务名称,添加采集网址,三、采集网址,点击“添加”按钮出现如下界面,三、采集网址,切换至“批量/多页”选项卡,可以批量添加网址,网址通用序号用通配符(*)替换,这添加方式主要用来处理分页网址,三、采集网址,切换至“其他网址格式”选项卡,也可以批量添加网址,网址通用序号用通配符(*)替换,这添加方式主要用来处理含有日期的网址,日期格式,三、采集网址,多级网址采集,点击添加按钮,网址过滤条件,三、采集网址,手动采集配置链接地址规则: 手动连接格式是将需要的网址用参数来获得并组合成我们需要的网址。这个好处是处理网址那块有规律的网址很好处理。而且可以

4、用这方法采集需要的字段,如:公告新闻类的标题、日期等。,点击单选按钮来切换,配置网址采集规则,三、采集网址,点击完成之后,则出现如下情况:完成采集网址步骤之后,点击“测试网址采集”按钮。会出现如下界面:,采集网址规则展示,配置网址采集规则,网址全部采集完成后,可以双击网址进行 内容采集;如需修改则点击“返回修改设置”,四、采集内容,双击网址或者点击测试该页就能跳转到采集内容界面在典型页面中会出现刚才选中的网址,这里就是测试采集内容。左边的标签名下面有:出处、时间、作者、内容、标题五个初始标签,可以对标签进行添加、删除和编辑等操作。,四、采集内容,编辑字段规则 以深交所的http:/ 页面并查看

5、该页的HTML源代码。在源代码中可以找到页面中的标题部分,如图:复制这段代码以及前后的相关html代码,将标题内容设为”参数”之后,通过正则匹配的方式获取:如图:,匹配规则,测试效果情况,四、采集内容,同样可以用这类似的方式来采集信息内容: 还是先通过内容附近的关键字段: 采集效果:,前后匹配字符串,四、采集内容,通过之前的方式采集可以看到内容包含了很多的html标签,这些并不是所需要的,因此需对其进行处理。 在数据处理项点击添加,选中html标签过滤: 点击全选再按确定即可。,处理之后的效果,四、采集内容,备注: 前后字符串截取与正则提取是火车头最基本、最常用的两种采集方式,其原理就是通过网

6、页源代码中的前后关键字来获取所要采集的内容,通常这类前后的关键字在网页源代码中具有一定的唯一性。,五、字段处理,火车头采集器除了有最基本的采集截取之外,还有大量的对数据自动作特殊处理的功能。 内容替换:内容替换功能是将采集后的字段中的一些内容替换成需要的格式,如有时采到的日期为xxxx年xx月xx日,而我们需要xxxx-xx-xx的格式,就可以采取这个功能。,五、字段处理,网页编码设定: 每个网站都有一个相对应的编码:如UTF-8。如果选错编码,则采集出来的数据就会呈现一种乱码格式。 大多数的网页编码火车头都可以自动识别,如不能则需要手动指定一个编码格式。(网页对应的编码格式通常会在源代码的里

7、),五、字段处理,循环采集处理 循环采集就是在一个页面中用相同的采集方式获取字段:以http:/ 有时有些记录不需要怎么办?火车采集器的记录筛选功能可以完成这个工作。火车采集器记录筛选有以下几个处理方法: 选中“内容过滤”就可对数据进行相关的过滤,如不得为空、不得重复等。,标签组合 有时我们会需要取几个字段来做数据的唯一性判断时就会用到标签组合采集。注:标签组合时需注意标签的前后顺序,组合后的标签必须在最下面 不然就会报错。,五、字段处理,文件下载功能 火车头采集还提供了一个下载附件的功能, 同样以http:/ 点击添加,选中“补全单网址”,之后点击文件下载,勾选“探测文件并下载”即可。,五、字段处理,附件下载情况,五、字段处理,附件下载配置好之后,还需给个文件存放路径及文件保存格式。 通常保存格式为原文件名或自增长的ID,也可以用之前一个采集字段作为文件名: 文件存放路径设置如下:,点击选项框,网址截取: 有时会遇到需要从网址当中取值的情况时,只需钩选“从网址中采集”即可。,五、字段处理,总结,创建分组、任务; 配置采集网址规则; 配置采集字段规则; 字段处理; 内容发布。,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报