注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册

首页 > 新闻资讯 > 反反爬策略:随机更换请求对象的IP信息

反反爬策略:随机更换请求对象的IP信息

来源:互联网 作者:admin 时间:2019-04-15 15:09:11

爬虫的目的就是为了模拟点击浏览器操作的行为,在反反爬策略中,最基础的就是更换User-Agent。User-Agent的作用是方便服务器识别,当前请求对象的身份信息。无法从身份属性来识别是否是机器操作,网站服务器只能通过其他信息来辨别,区别机器和正常用户。识别IP访问频率,判断cookie信息,添加验证码操作等都是常见的网站反爬操作。下面具体来讲讲反反爬策略:随机更换请求对象的IP信息。

反反爬策略:随机更换请求对象的IP信息

Scrapy中,更换请求对象的IP信息非常的方便,只需要在request对象进入下载器之前,修改request对象的参数信息。

所以我们需要在下载器中间件 Download_middleware中自定义一个下载器中间件ProxiesMiddleware,在process_request()函数中修改request对象信息。

其中 PROXIES_LIST 是构建的代理列表。

process_request的参数分别是request当前请求对象,spider当前的爬虫对象。

返回None,Scrapy将继续处理该Request;

返回Request对象时,这个Reuqest会重新放到调度队列里,更低优先级的process_reqyest()函数不会执行;

返回Response对象时,直接将Response对象发送给Spider来处理。

现在每次发送一次请求,请求对象的IP信息就会从配置中的代理IP池中随机挑选一个。不同的IP就会迷惑服务器监控,不会对本次请求做反爬处理了。至此,我们的爬虫就能顺顺当当的获取数据了。好了,本期结束,大家散会吧。

NO! NO! NO!这还远远不够,这才只是代理的第一步。没有哪个代理是能保证百分之百成功的。付费代理也好,免费代理也好,即使是高匿代理也只不过是提高了防反爬的几率,并没有说一定会成功的。

请求失败的解决方案有两种:

1. 多试几次,直到请求成功,不成功就报错。

2. 换一个IP试试,直到换成请求成功的代理。对代理质量要求必须高。如果代理池质量很差,项目就会陷入死循环中。

解决逻辑是: 设置重试次数,达到指定次数就换IP。

幸运的是Scrapy框架中自带了处理失败请求的中间件RetryMiddleware。

注释的部分是添加的加入代理的逻辑,需要继承RetryMiddleware之后再重写。

在settings中设置最大重试次数以及需要进行重试的异常状态码列表。

关闭Scrapy自带的RetryMiddleware中间件,开启自定义的Retry中间件。

启动项目测试。遇到失败的请求会重新发送,超过最大重试次数以后返回一个空的数据。

这就是我们预期的结果了,剩下的就是提高代理池的质量,就能最大程度的保证爬虫的可用性了。


最新资讯

推荐阅读

  1. 28

    2020-06

    高效爬取网站数据操作详解

    高效爬取网站数据操作详解!Python爬虫作为时下热门的信息采集工具,广受互联网工作者喜爱。由于其操作简单、语法简单、url请求和字符串处理都很方便快捷,计算机小白也可以通过简单的学

  2. 01

    2019-06

    动态拨号VPS等换IP工具都有什么用

    在现如今我们不论是衣食住行还是工作中都离不开互联网,而用来连接互联网的电子计算机都会有一个ip地址,主要是用来确定计算机的具体位置同时也是为了标识计算机,毕竟每天都会有不计

  3. 16

    2020-03

    解析高匿代理限制

    解析高匿代理限制!Web抓取应用程序已经成为完成我们上面讨论的雄心勃勃的业务任务的不可替代的工具,但是在数据收集机器人军队已经部署到信息战场之后很快就发现了很多常见的局限性。

  4. 10

    2021-04

    免费代理IP存在的意义是什么

    免费代理IP存在的意义是什么?自古以来,免费的东西向来令人趋之若鹜,哪怕这东西没有多大价值甚至毫无价值,“免费”两字本身就散发着令人着迷的魅力。今天要说的是免费代理IP,它有效

  5. 19

    2019-10

    好用的代理ip软件哪家最好?

    好用的代理ip软件哪家最好?想使用代理IP的话该去哪里找呢?不要急往下看,可以找精灵代理ip,那么精灵代理ip有什么好的呢?

  6. 25

    2019-11

    爬虫过程中IP被封问题8种解决方法

    爬虫过程中IP被封问题8种解决方法!爬虫采集成为很多公司企业个人的需求,但正因为如此,反爬虫的技术也层出不穷,像时间限制、IP限制、验证码限制等等,都可能会导致爬虫无法进行,所以