注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 常见问题 > 爬虫IP被限制怎么办?爬虫突破限制的方法 > 正文

爬虫IP被限制怎么办?爬虫突破限制的方法

  爬虫IP被限制怎么办?经常实用爬虫收集数据难免会遇到收集不了情况,通常是因为访问过于频繁,IP被封杀,无法继续访问,这时候应该怎么办呢?爬虫IP被限制怎么办?


  一、尽可能的模拟用户行为

  1、UserAgent经常换一换;

  2、访问时间间隔设长一点,访问时间设置为随机数;

  3、访问页面的顺序也可以随机着来。


  二、伪装IP

  有小部分网站的防范措施比较弱,可以伪装下IP,修改X-Forwarded-for即可绕过。

  可以设置访问时间间隔,很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent

  可以设置访问的时间间间隔长一点,比如没抓取一个页面休眠一个随机时间:

  1.import time,random

  2.time.sleep(random.random()*3)

  大部分网站么,如果要频繁抓取,一般还是要多IP。解决方案是国外VPS再配多IP,通过默认网关切换来实现IP切换,比HTTP代理高效得多,估计也比多数情况下的ADSL切换更高效。

  对于一个crawler来说,这是一个比较responsible的做法。

  因为本来爬虫就可能会给对方网站造成访问的负载压力,所以这种防范既可以从一定程度上防止被封,还可以降低对方的访问压力。


  三、使用代理IP,动态IP防封

  爬虫IP被限制怎么办?检查ip的访问情况是网站的反爬机制最喜欢也最喜欢用的方式。这种时候就可以更换不同的ip地址来爬取内容。当然,你有很多有公网ip地址的主机或者vps是更好的选择,如果没有的话就可以考虑使用代理,让代理服务器去帮你获得网页内容,然后再转发回你的电脑。代理按透明度可以分为透明代理、匿名代理和高度匿名代理:

  透明代理:目标网站知道你使用了代理并且知道你的源IP地址,这种代理显然不符合我们这里使用代理的初衷。

  匿名代理:匿名程度比较低,也就是网站知道你使用了代理,但是并不知道你的源IP地址。

  高匿代理:这是最保险的方式,目标网站既不知道你使用的代理更不知道你的源IP。


  代理的获取方式可以去购买,当然也可以去自己爬取免费的,但是免费的代理通常不够稳定。这里有个比较实用的付费IP代理精灵,价格适中,IP资源量多,可以提高全国上百城市的IP节点,稳定性有保障,可以尝试下载试用。

  IP代理精灵下载地址:http://www.ipjldl.com/Shop-dynamic.html

  精彩推荐:IP代理精灵:代理IP稳定吗?能用多久?