1、网络爬虫和抽取系统设计,购物比价网,题号:60 31406080 20 软件1401 吴帅帅,Contents,01. 爬虫介绍,02.项目介绍,03. 系统架构,01-1. 什么是网络爬虫?,01-2. 爬虫架构,02-1. 什么是购物比价网?,02-2. 比价网的价值,03-1. 系统功能,03-2. 系统组成和分层架构,04.技术架构,04-1. 爬虫选择,04-2. WEB框架选择,01-3. 爬虫工作原理和价值,02-2. 比价网的目标,爬虫介绍,Crawler introduction,01,爬虫介绍,4,什么是网络爬虫?,网络爬虫:一段自动抓取互联网信息的程序。,互联网,URL,
2、URL,URL,URL,URL,URL,URL,人工,爬虫,爬虫,价值数据,爬虫介绍,爬虫架构,5,爬虫,URL 管理器,网页 下载器,网页 解析器,爬虫调度端,价值数据,爬虫介绍,爬虫架构-运行流程,6,有待爬URL?,是/否,获取1个待爬URL,URL,下载URL内容,URL内容,解析URL内容,价值数据、新URL列表,价值数据,新增到待爬取URL,输出价值数据,循环,项目介绍,爬虫的价值,7,商品价格对比网,爬取多个购物网站的某件商品的价格,进行对比。,招聘信息网,爬取多个招聘网站,将招聘信息分类,供用户查询。,技术文章大全,爬取某知名博客网站,将某类文章 爬取下来, 制作成本地离线的电
3、子书。,新闻聚合阅读器,爬取多个新闻网站,将新闻聚集显示,提供全面的实时信息。,价值数据,价值:互联网数据,为我所用!,项目介绍,Project introduction,02,项目介绍,购物比价网,9,以价格比较为核心业务,从其他网上商城抓取产品信息,提供给用户浏览和比较,为购买决策提供有力的参考。,什么是购物比价网?,项目介绍,购物比价网价值,10,解决用户在购物时需打开多个网站,不断自行比较的繁琐问题。 节省用户购物时间优化用户的购物体验,带给用户带了更愉悦的购物经历。,购物比价网有什么价值?,项目介绍,购物比价网目标,11,目标是彻底打捞网络信息,从而拥有海量、准确的产品描述、报价、经
4、销商通讯录、产品测评和使用体验,并通过尽可能简单的操作,让消费者精准锁定中意的产品。,购物比价网的目标?,系统架构,System Architecture,03,系统架构,用例图,13,登录,浏览商品,收藏商品,查询商品,推荐商品,对比价格,用户,系统架构,业务架构,14,系统架构,业务组成,15,系统架构,分层架构,16,用户信息数据库,商品信息数据库,历史价格数据库,商品推荐,价格比对,历史价格分析,商品显示,商品购买入口,价格走向图,评价信息数据库,折扣显示,折扣搜索,商品价格爬虫,商品信息爬虫,商品折扣爬虫,评价信息展示,评价信息爬虫,商品价格数据库,评价合并,技术架构,Technic
5、al Framework,04,技术架构,技术选择,18,技术架构,选择爬虫框架,19,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。,技术架构,选择URL实现,20,内存,Python内存 待爬取URL集合: set() 待爬取URL集合: set(),MySQL urls (urls, is_crawled),Redis 待爬取URL集合: set 待爬取URL集合: set,关系数据库,缓存数据库,URL管理器实现方式,技术架构,技术选择,21,技术架构,选择WEB架构
6、,22,Django是python的一个web框架,主要目的是简便、快速的开发数据库驱动的网站。它强调代码复用,多个组件可以很方便的以“插件”形式服务于整个框架,Django有许多功能强大的第三方插件,你甚至可以很方便的开发出自己的工具包。这使得Django具有很强的可扩展性。,技术架构,选择服务器,23,Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。,技术架构,系统部署,24,THANK YOU,PPT模板下载: 行业PPT模板: 节日PPT模板: PPT素材下载: PPT背景图片: PPT图表下载: 优秀PPT下载: PPT教程: Word教程: Excel教程: 资料下载: PPT课件下载: 范文下载: 试卷下载: 教案下载: PPT论坛:,