注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 爬虫中解决ip被封锁的几种方法

爬虫中解决ip被封锁的几种方法

来源:IP代理精灵 作者:admin 时间:2019-05-17 13:58:35

使用爬虫采集网站时,ip被封锁怎么办?使用IP代理就可以轻松解决,下面为大家介绍几种不同的方法,一起来看看吧!

爬虫中解决ip被封锁的几种方法

方法1


使用多IP代理:


1.IP必须需要,比如ADSL。如果有条件,其实可以跟机房多申请外网IP。


2.在有外网IP的机器上,部署代理服务器。


3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。


好处:


1.程序逻辑变化小,只需要代理功能。


2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。


3.就算具体IP被屏蔽了,你可以直接把代理服务器下线就OK,程序逻辑不需要变化。


方法2


有小部分网站的防范措施比较弱,可以伪装下IP,修改X-Forwarded-for(貌似这么拼。。。)即可绕过。 、


大部分网站么,如果要频繁抓取,一般还是要多IP。


我比较喜欢的解决方案是国外VPS再配多IP,通过默认网关切换来实现IP切换,比HTTP代理高效得多,估计也比多数情况下的ADSL切换更高效


方法3


ADSL + 脚本,监测是否被封,然后不断切换 ip 设置查询频率限制


正统的做法是调用该网站提供的服务接口。


方法4


国内ADSL是王道,多申请些线路,分布在多个不同的电信区局,能跨省跨市更好,自己写好断线重拨组件,自己写动态IP追踪服务,远程硬件重置(主要针对ADSL猫,防止其宕机),其余的任务分配,数据回收,都不是大问题。


方法5


1 user agent 伪装和轮换


2 使用代理 ip 和轮换


3 cookies 的处理,有的网站对登陆用户政策宽松些


友情提示:考虑爬虫给人家网站带来的负担,be a responsible crawler :)


方法6


尽可能的模拟用户行为:


1、UserAgent经常换一换;


2、访问时间间隔设长一点,访问时间设置为随机数;


3、访问页面的顺序也可以随机着来。


方法7


网站封的依据一般是单位时间内特定IP的访问次数.


我是将采集的任务按 目标站点的IP进行分组


通过控制每个IP 在单位时间内发出任务的个数,来避免被封.


当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了。


方法8


对爬虫抓取进行压力控制;可以考虑使用代理的方式访问目标站点。


降低抓取频率,时间设置长一些,访问时间采用随机数


频繁切换UserAgent(模拟浏览器访问)


多页面数据,随机访问然后抓取数据 -更换用户IP。


最新资讯

推荐阅读

  1. 20

    2019-05

    如何用代理服务器在国内使用google搜索

    如何用代理服务器在国内使用google搜索?简洁的说,当我们上网时,我们是和服务端建立了连接(利用我们和对方的IP地址),网络信息直接从服务端传递给了我们客户端。但是我国不允许我们

  2. 13

    2019-11

    使用http代理的API需要添加验证的原因

    使用http代理的API需要添加验证的原因!在寻找IP代理提供商的时候,大家都可以发现,尤其是http代理的,大部分公司的网站上都可以看到可以免费使用的ip,那这些代理是怎么来的呢,实际上这

  3. 24

    2019-10

    动态IP和静态IP的区别,适用什么场景?

    动态IP和静态IP的区别,适用什么场景?最近有个朋友问我动态ip与静态ip有什么区别,如果需要用到代理ip,该如何选择。今天就这个问题来跟大家来介绍下动态ip和静态ip的区别,适用什么场景?

  4. 22

    2019-11

    如何为你的爬虫实现动态ip代理?

    如何为你的爬虫实现动态ip代理?在写爬虫时,某些网站会有一些防爬措施,比如限制单个ip的访问频率。而突破ip限制的方式,大概有如下几种:

  5. 20

    2019-08

    网络推广为什么要换IP

    很多新做网络推广的人员一开始都不知道要换IP,更不知道有代理IP软件的存在。那么,网络推广为什么要换IP呢?今天小编就来跟大家说一说。

  6. 26

    2018-11

    如何实现大量爬取数据?爬取大量数据的方法

    如何实现大量爬取数据?对于爬虫抓取数据,大家对反爬机制都有一定的了解,比如IP被封,验证码限制等等,少量的抓取数据这些问题都还好解决,但如果想大量抓取数据,遇到的问题成倍...