注意: IP精灵代理仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

您好,请登录 没有账号?

首页 > 新闻资讯 > 爬虫行动被限制,可以试试改换ip

爬虫行动被限制,可以试试改换ip

来源:IP代理精灵 作者:admin 时间:2019-05-07 14:29:10

知己知彼百战不殆,对于竞争对手或者目标消费群体的数据收集,我们乐此不疲。在ip代理盛行的今天,爬虫技术已经可以被我们充分发挥,海量收集数据,毫不手软。如果不用代理ip,我们的爬虫行动往往会受到很多限制,以致最终被完全封锁掉。有什么方法能避免呢?往下看你就知道了。

爬虫行动被限制,可以试试改换ip

1.验证码


我们在很多网站会遇到,如果请求量大了之后就会遇到验证码的情况。最让人诟病的12306,其实也是一定程度上的防止非正当请求的产生。


对于验证码,可以通过OCR来识别图片,Github上面有很多大神分享的代码可以用,可以去看看。


2.Headers限制


这应该是最常见的,最基本的反爬虫手段,主要是初步判断你是否是真实的浏览器在操作。


这个一般很好解决,把浏览器中的Headers信息复制上去就OK了。


值得注意的是,很多网站只需要userAgent信息就可以通过,但是有的网站还需要验证一些其他的信息,比如知乎,有一些页面还需要 authorization 的信息。所以需要加哪些Headers,还需要尝试,可能还需要Referer、Accept-encoding等信息。


3.返回伪造的信息


这个真的是程序员何苦为难程序员。反爬虫的工程师也是煞费苦心,一方面是不让真实的数据被大规模爬取,另一方面也给你后期的数据处理增加负担。如果数据伪造的好,可能你真的不容易发现自己爬的是假数据,当然只能依靠你后期去清洗这些数据了。


4.减少返回的信息


最基本的隐藏真实的数据量,只有不断加载才能刷新信息。还有的就更变态,会只给你展示一部分信息,人都看不到,爬虫也无能为力。比如CNKI,你每次搜索能够得到的内容就是非常有限的。这个貌似没有很好的解决办法,但是这么干的网站毕竟是少数,因为这种方式,其实在某种程度上是牺牲了一部分真实用户的体验。


5.动态加载


通过异步加载,一方面是为了反爬虫,一方面也可以给网页浏览带来不同的体验,实现更多的功能。很多动态网站都是通过ajax或者JavaScript来加载请求的网页。


在遇到动态加载的网页的时候就需要去分析ajax请求,一般情况都能直接找到包含我们想要数据的json文件。


如果网站给文件加密,那么可以通过selenium+phantomJS框架,调用浏览器内核,并利用phantomJS执行js来模拟人为操作以及触发页面中的js脚本。理论上selenium是比较全能的爬虫方案,因为这个确实算是真实的用户行为。除非网站的反爬虫严苛到宁愿误杀的地步。


6.IP限制


限制IP也是很多网站反爬虫的初衷,有些人随便写一个循环,就开始暴力爬取 ,确实会给网站服务器带来很大的负担,而这种频繁的访问,显然也不会是真实用户行为,索性果断把你封掉。这种情况,你可以遵守规则,把你爬取的速度变慢,每次爬取停个几秒就行了。


当然,你也可以通过不断换IP的形式来绕过这种限制,网上很多代理IP资源,例如IP代理精灵,爬到一定的量就切换IP。


最新资讯

推荐阅读

  1. 13

    2019-06

    什么原因会导致代理IP速度慢

    代理IP是现代社会中很多人经常使用的上网方式,特别是对于一些专业的网络营销人员来说,代理IP资源是他们工作必不可少的工具之一。在选择使用代理IP时,除了IP稳定性和安全性以外,IP速

  2. 16

    2018-11

    纯干货!如何在线刷网站ip访问量提高权重?

    ​怎样提高网站的浏览量和点击率?这是很多互联网工作者迫切想要知道的吧!开发出来一个网站,但苦苦没有人来访问,这时候刷ip软件就显得至关重要啦!

  3. 28

    2019-04

    怎么使用代理服务器上网

    怎么使用代理服务器上网呢?很多网友探讨这个问题,想必是因为工作原因吧,虽然正常上网一般用不到代理,但是看自己需求吧,今天说的代理上网不是网上说的翻墙哦,今天我们不讨论这个

  4. 07

    2019-05

    爬虫换ip工具哪个好

    爬虫换ip工具哪个好?大数据时代下,数据采集推动着数据分析,数据分析推动发展。但是在这个过程中会出现很多问题。拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取

  5. 17

    2019-06

    数据采集为什么要用IP代理?

    互联网的迅速发展带动了大数据的应用,数据采集成为了一个热门的行业,大数据样本的获得需要通过数据爬虫来时限,爬虫工作者一般都会解用爬虫代理IP这个工具,这是因为再数据采集的过

  6. 28

    2019-05

    如何使用http代理服务器

    在日常生活中,使用计算机中的各种浏览器访问网站是非常正常的事情,而使用代理服务器进行网络访问相信很多人都没用过。代理服务器就是结语客户端及网络服务器之间的一层架构,它能够

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961