前几节课我们学习的是用scrapy框架爬取文本信息,今天讲讲scrapy怎么爬取图片。我们以爬取站长素材中的高清图片为例开始,我们今天的步骤讲解,在讲解之前我们首先梳理下大概的思路。
Scrapy 框架
下载器:好的!给你,这是下载好的东西。(如果失败:sorry,这个request下载失败了。然后引擎告诉调度器,这个request下载失败了,你记录一下,我们待会儿再下载)
张家界武陵源风景名胜区是一个非常适合喜欢自然风光和户外活动的人的地方。景区内的石柱林景观非常壮观,玻璃栈道和缆车等设施也非常刺激有趣,游客可以在其中领略到自然的神奇和壮美。同时,景区内的黄龙洞和宝峰湖等景点也非常值得一游。总之,张家界武陵源风景名胜区是一个令人难以忘怀的地方。
其实,今年五一假期,不仅是杭州,南京、北京的许多景区,同样也是人山人海,火爆异常。
今年你在哪些地方留下了足迹呢?对你来说哪个地方是年度最佳呢?一起在评论区留下过去一年遇到的难忘经历吧~
我们暂时先不处理管道,后面会详细介绍。
门票和服务设施:门票价格因景点不同而异,一般在100元以上,游客可以在景点门口购票入内。景区内设有许多餐馆、商店和旅店,提供各种服务。
02
Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),
终审:周健军
打开mySpider目录下的items.py
作为海上丝绸之路重要门户和东南沿海重要港口城市,汕头还是中国大陆唯一拥有内海湾的城市,他的实力在2022年终于被发现了。
门票价格根据季节和游客数量有所不同,一般在200-300元之间。长隆旅游度假区提供多种服务设施,包括停车场、餐厅、商店、ATM机和免费WiFi等。
图|携程社区@无敌小贱贱
这里再描述一下scrapy处理的架构,全网比较流行的scrapy架构处理流程为:
具体Scrapy安装流程参考:
http://doc.scrapy.org/en/latest/intro/install.html#
intro-install-platform-notes 里面有各个平台的安装方法
其实也可以由我们自行创建itcast.py并编写上面的代码,只不过使用命令可以免去编写固定代码的麻烦
澳门
通过检查-network我们找到图片所对应的链接并编写解析代码,并测试是否能获取到图片的链接(如下图),需要注意的是,在测试之前,需要在设置文件夹(setting)中,设置好useragent以及robots参数
图|携程社区@少年心之旅
07 广州长隆旅游度假区:
运行结果如下:
景点特色和历史:
图|携程社区@Sorry爱旅行
selenium 安装
来看一看昨天的爬虫处理:
1、创建项目
2.自动创建目录的结果:
1.爬虫文件需要定义一个类,并继承scrapy.spiders.Spider
2.必须定义name,即爬虫名,如果没有name,会报错。因为源码中是这样定义的:
3.编写函数parse,这里需要注意的是,该函数名不能改变,因为Scrapy源码中默认callback函数的函数名就是parse;
4.定义需要爬取的url,放在列表中,因为可以爬取多个url,Scrapy源码是一个For循环,从上到下爬取这些url,使用生成器迭代将url发送给下载器下载url的html。源码截图:
4、运行
5.scrapy查询语法:
6.scrapy查询语法中的正则:
7、格式化处理
注意个人安全和财产安全,尤其是在人多的地方和夜晚时段。
↓点击下图查看南澳岛必做10件小事↓
project_folder -- 项目文件夹名称
|
|──project_name -- 该项目的python模块,一般和项目文件夹名称相同
| |
| |──spider -- 放置spider代码的包,以后所有的爬虫,都存放在这个里面
| |
| |──items.py -- 用来存放爬虫怕写来的数据的模型
| |
| |──middlewares.py -- 用来存放各种中间件的文件
| |
| |──pipelines.py -- 用来对items里面提取的数据做进一步处理,如保存到本地磁盘等
| |
| |──settings.py -- 本爬虫的一些配置信息(如请求头、多久发送一次请求、ip代理池等)
|
|──scrapy.cfg -- 项目的配置文件
引擎:Hi!Spider, 你要处理哪一个网站?
本文来自【昆明日报-掌上春城】,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。
Python 2 / 3
Scrapy + Selenium