注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册

首页 > 新闻资讯 > 用代理IP应对爬虫被源网站流量监控封杀IP

用代理IP应对爬虫被源网站流量监控封杀IP

来源:IP代理精灵 作者:admin 时间:2019-08-27 13:57:28

爬虫经常需要配合代理IP,但并不是所有网站都会监控流量来源,一些运行良好的网站需要考虑数据安全性和核心竞争力,才会对流量进行监控,防止爬虫的高频率抓取导致核心数据外泄。


这部分网站一般是通过IP来识别爬虫,当同个IP在一段时间内请求明显高于人访问网页的速度时,会判定为爬虫请求从而对该请求的IP进行短期或长期封杀。

用代理IP应对爬虫被源网站流量监控封杀IP

那这时候就需要使用代理来绕过对IP的监控或封杀。在网上能找到一些提供免费代理IP的平台,不过亲测极其不稳定,通常100个里只有个别能用。


所以真正的想用代理IP来做爬虫,还是找付费的比较好。通常爬虫用途可以买动态IP:平台提供一个API,每次刷新请求会得到一个或一堆有效期比较短的IP,然后从这些IP里挑选来代理请求,失效时重新生成可用的IP即可。


我写的爬虫是node里跑的,这里不得不提的是,在js里非常流行的axios请求库亲测并不能实现代理请求(也许是我姿势不对),参考网上教程需要使用request这个请求库(然而并不好用,API并不是流行的Promise方式)


所以我在逻辑代码里是这样实现的,首先封装一个请求函数,封装过后的请求函数就暴露了一个统一的request方法,使用时候只需要request(url)即可。


从代码里也可以看到:当代理有效时会用代理,当代理无效、超时或其他任何错误时会返回正常的请求,这也是降级保障了爬虫代码的健壮性。


在使用拨号服务器获取的代理IP时,超时时间是个需要不断调整的设置。超时太短了会导致代理不可用的概率提高,而超时太长则会影响整个爬虫的速度。


比如我给客户跑的这个爬虫,不使用代理时跑完需要4个小时,而如果使用代理,每次请求的时间就加长了,在设置2000毫秒的超时下,整个任务跑下来需要翻2倍的时间。


最新资讯

推荐阅读

  1. 15

    2019-10

    代理ip助力发帖及定制ip未来趋势

    代理ip助力发帖及定制ip未来趋势!如今是信息化时代,自媒体行业的发展和行业的需求,有些企业需要在网上进行发帖推广,但是正常一个IP每日发帖数量受限,即便不停频繁发帖,不仅帖子的

  2. 03

    2020-08

    代理ip的主要功能介绍

    代理ip的主要功能介绍!网络信息时代发展迅速,与网络相关的行业也随着互联网的发展不断的壮大。代理IP作为互联网的衍生产品之一,使用的范围非常广泛。很多网络工作者会用代理IP这个“

  3. 16

    2020-03

    浅谈搜索引擎优化(SEO)和网页爬取

    浅谈搜索引擎优化(SEO)和网页爬取!全能SERP或搜索引擎结果页面上的排名是当今竞争激烈的商业环境中成功的基础,SEO在网络营销领域发挥着关键作用。今天在线评论对消费者的掌控程度高于他

  4. 26

    2019-04

    selenium+python设置爬虫代理IP的方法

    这篇文章主要介绍了selenium+python设置爬虫代理IP的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧!1.

  5. 20

    2020-08

    浅谈IP地址和域名的关系及区别

    浅谈IP地址和域名的关系及区别

  6. 12

    2019-08

    电脑改IP用代理IP软件

    在上网的时候,可能会出现网页无法打开,不允许访问等错误,这可能是电脑IP被网站封了,你不能再访问。想继续访问,就需要换IP。出现以上情况,代理IP来改变IP比较方便的方法。需要注意