注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 反反爬策略:随机更换请求对象的IP信息

反反爬策略:随机更换请求对象的IP信息

来源:互联网 作者:admin 时间:2019-04-15 15:09:11

爬虫的目的就是为了模拟点击浏览器操作的行为,在反反爬策略中,最基础的就是更换User-Agent。User-Agent的作用是方便服务器识别,当前请求对象的身份信息。无法从身份属性来识别是否是机器操作,网站服务器只能通过其他信息来辨别,区别机器和正常用户。识别IP访问频率,判断cookie信息,添加验证码操作等都是常见的网站反爬操作。下面具体来讲讲反反爬策略:随机更换请求对象的IP信息。

反反爬策略:随机更换请求对象的IP信息

Scrapy中,更换请求对象的IP信息非常的方便,只需要在request对象进入下载器之前,修改request对象的参数信息。

所以我们需要在下载器中间件 Download_middleware中自定义一个下载器中间件ProxiesMiddleware,在process_request()函数中修改request对象信息。

其中 PROXIES_LIST 是构建的代理列表。

process_request的参数分别是request当前请求对象,spider当前的爬虫对象。

返回None,Scrapy将继续处理该Request;

返回Request对象时,这个Reuqest会重新放到调度队列里,更低优先级的process_reqyest()函数不会执行;

返回Response对象时,直接将Response对象发送给Spider来处理。

现在每次发送一次请求,请求对象的IP信息就会从配置中的代理IP池中随机挑选一个。不同的IP就会迷惑服务器监控,不会对本次请求做反爬处理了。至此,我们的爬虫就能顺顺当当的获取数据了。好了,本期结束,大家散会吧。

NO! NO! NO!这还远远不够,这才只是代理的第一步。没有哪个代理是能保证百分之百成功的。付费代理也好,免费代理也好,即使是高匿代理也只不过是提高了防反爬的几率,并没有说一定会成功的。

请求失败的解决方案有两种:

1. 多试几次,直到请求成功,不成功就报错。

2. 换一个IP试试,直到换成请求成功的代理。对代理质量要求必须高。如果代理池质量很差,项目就会陷入死循环中。

解决逻辑是: 设置重试次数,达到指定次数就换IP。

幸运的是Scrapy框架中自带了处理失败请求的中间件RetryMiddleware。

注释的部分是添加的加入代理的逻辑,需要继承RetryMiddleware之后再重写。

在settings中设置最大重试次数以及需要进行重试的异常状态码列表。

关闭Scrapy自带的RetryMiddleware中间件,开启自定义的Retry中间件。

启动项目测试。遇到失败的请求会重新发送,超过最大重试次数以后返回一个空的数据。

这就是我们预期的结果了,剩下的就是提高代理池的质量,就能最大程度的保证爬虫的可用性了。


最新资讯

推荐阅读

  1. 05

    2019-11

    高匿名代理能保护隐私吗?

    高匿名代理能保护隐私吗?互联网大数据时代,人们对信息安全即便有保护意识,也无法避免的被各式各样的企业泄露出去,既然这样应该怎么保护隐私安全呢?使用高匿名代理是更加安全吗?高匿

  2. 06

    2019-11

    http代理调用模式是什么?

    http代理调用模式是什么?随着互联网信息的快速发展,各行各业发展尤为迅速,大数据时代来临,爬虫行业迎来高速发展,http代理的作用也日益重要。近几年来,各种代理IP的推出吸引了不少人

  3. 28

    2019-08

    检测代理IP匿名程度的方法

    从事互联网工作的朋友的基本都知道代理,这个是肯定的,不管是用IP代理精灵,还是直接VPN的通道代理,代理有着不用说大家也知道的重要性。不管是做CPA还是做点击亦或者投票,代理都能帮

  4. 12

    2019-04

    什么是代理ip服务器?

    代理IP即代理服务器(Proxy Server)是一种重要的安全功能,它的工作关键在网络体系结构互联(OSI)模型的对话层,进而起到切换ip。ip代理大多被用来连INTERNET(英特网)和INTRANET(内网)。

  5. 11

    2019-07

    电商效果补量可以用代理IP

    电商效果补量可以用代理IP,现在网络购物比较普及的,说起电商大家都不陌生,全国人民熟悉的淘宝天猫,还有京东聚美优品,唯品会当当网等,都是比较知名的电商平台,自从有了网络我们

  6. 09

    2020-03

    寻找好用的代理ip商

    我们平时使用网络,可能都不太注意自己的ip地址。其实我们的ip地址也能够提供很多信息,有些不法分子,甚至可以通过ip来窃取我们的个人信息。