【小白必看】系列产品：Scrapy爬虫框架实战案例

2020-12-21 21:31:09LanceLee数据爬虫343

- N +

文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,著作权归创作者全部,如有什么问题请立即在线留言以作解决

初见Scrapy

开发工具
创建新项目
创建网络爬虫
项目结构图
创建Item
剖析HTML
爬取网页页面

开发工具

运作服务平台：Windows 10
Python版本号：Python 3.6.1
Scrapy版本号：Scrapy 1.4.0
IDE：Sublime text3
电脑浏览器：chrome

下边大家进到文中的主题风格，爬取大家的第一个网页页面“去哪 ”的酒店餐厅大城市目录,图上鲜红色圈圈单位。

“去哪”：http://bnb.qunar.com/hotcity.jsp

创建新项目

scrapy startproject qunar

白框中是强调创建一个新网络爬虫。

创建网络爬虫

cd qunar
scrapy genspider hotel bnb.qunar.com

此后，大家的新项目算作基础创建好啦，在其中“hotel”就是指网络爬虫的名字，“bnb.qunar.com ”网络爬虫的网站域名。但是为了更好地便捷大家新项目起动，能够在新项目中新创建一个entrypoint.py文件，文档內容以下：

项目结构图

创建Item

创建一个新的Item便捷大家储存所爬取的数据信息，从爬取的网页页面中能够看得出，大家必须2个数据信息就可以了，一个是城市名称，另一个是大城市相匹配的URL 。
下边大家就来创建储存这两个数据信息Item:

上边QunarItem是由scrapy自动生成出去的，大家临时先无论它，假如你要立即用系统软件创建的哪个Item也是能够的。我这里是自身新创建一个，看上去比较好管理方法。

剖析HTML

按F12进到微信开发工具，在按Ctrl Shift c 进到原素搜索情况，寻找包囊我们要爬取內容的div，如图所示下所显示:

从图上能够看得出，A~Z各自在一个div中，因此大家要是分析出一个div那别的25个div也就分析出来。随后，我们在从右边中一层一层点进来，寻找第一个大城市“阿坝”，如下图所显示：

根据对图的观查，能够发觉，大家最先要寻找包囊因此內容class=”b_allcity ”的div,在从这一div中寻找全部class= ”e_city_list”的div ，在从这当中寻找全部“li”标识中的“a ”标识，爬取“a”标识中的文字及“href”特性。

item大家早已创建好啦，对HTML网页页面也开展了剖析，下边就可以进到主题风格了“网络爬虫 ”，有点儿小兴奋。

爬取网页页面

开启spiders中的hotel.py文件。这文档是系统软件帮大家创建的，系统软件帮大家创建了一下重要编码。如图所示

下边大家要是对那么编码稍微修改一点，并写成以前大家对HTML分析的编码就好了。如图所示：

文中中我应用的是“BeautifulSoup”来对HTML编码开展分析的，假如有没有装“BeautifulSoup”的小伙伴们能够在命令窗口中立即安裝，安裝编码：

pip install bs4

写到这儿，编码就早已写完了，下边大家就来运作起來看一下实际效果怎样。
在命令窗口键入：

python entrypoint.py

結果：

从图上能够看得出，我们要爬取的內容早已被大家爬取出来。是否感觉“so easy ”呀！！！

文章来源于网络，如有侵权请联系站长QQ61910465删除

本文版权归去快排Seo www.SEOgurublog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ▷61910465