注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 用代理IP应对爬虫被源网站流量监控封杀IP

用代理IP应对爬虫被源网站流量监控封杀IP

来源:IP代理精灵 作者:admin 时间:2019-08-27 13:57:28

爬虫经常需要配合代理IP,但并不是所有网站都会监控流量来源,一些运行良好的网站需要考虑数据安全性和核心竞争力,才会对流量进行监控,防止爬虫的高频率抓取导致核心数据外泄。


这部分网站一般是通过IP来识别爬虫,当同个IP在一段时间内请求明显高于人访问网页的速度时,会判定为爬虫请求从而对该请求的IP进行短期或长期封杀。

用代理IP应对爬虫被源网站流量监控封杀IP

那这时候就需要使用代理来绕过对IP的监控或封杀。在网上能找到一些提供免费代理IP的平台,不过亲测极其不稳定,通常100个里只有个别能用。


所以真正的想用代理IP来做爬虫,还是找付费的比较好。通常爬虫用途可以买动态IP:平台提供一个API,每次刷新请求会得到一个或一堆有效期比较短的IP,然后从这些IP里挑选来代理请求,失效时重新生成可用的IP即可。


我写的爬虫是node里跑的,这里不得不提的是,在js里非常流行的axios请求库亲测并不能实现代理请求(也许是我姿势不对),参考网上教程需要使用request这个请求库(然而并不好用,API并不是流行的Promise方式)


所以我在逻辑代码里是这样实现的,首先封装一个请求函数,封装过后的请求函数就暴露了一个统一的request方法,使用时候只需要request(url)即可。


从代码里也可以看到:当代理有效时会用代理,当代理无效、超时或其他任何错误时会返回正常的请求,这也是降级保障了爬虫代码的健壮性。


在使用拨号服务器获取的代理IP时,超时时间是个需要不断调整的设置。超时太短了会导致代理不可用的概率提高,而超时太长则会影响整个爬虫的速度。


比如我给客户跑的这个爬虫,不使用代理时跑完需要4个小时,而如果使用代理,每次请求的时间就加长了,在设置2000毫秒的超时下,整个任务跑下来需要翻2倍的时间。


最新资讯

推荐阅读

  1. 26

    2019-04

    没有优质代理IP,爬虫会遇到什么困难?

    如今是大数据的时代,爬虫行业大肆发展,其技术日新月异,从业者如过江之鲫,数不胜数。说到爬虫,就不得不说到代理IP,代理IP是爬虫能够高速发展的基石,必不可少,没有代理IP,爬虫就

  2. 29

    2020-05

    解析爬虫如何躲避反爬机制?

    解析爬虫如何躲避反爬机制?网络爬虫对于推动网络信息技术的发展有很大的作用,但对于网络服务器来说,却又是讨厌至极,恨不得能全部揪出来,一一抹去;所以诞生了各种各样的网络反爬机

  3. 03

    2020-04

    代理服务器的部署几种方式

    代理服务器的部署几种方式!可以根据其目标用途,将代理放在任意位置。代理服务器的部署几种方式?

  4. 05

    2019-08

    HTTP代理IP的几种授权方式

    许多朋友在运用http代理的时分发现需求绑定IP白名单,以为很是费事,经常有朋友跟IP代理精灵说,你看看这家、那家都不必绑定白名单的,拿到IP就能直接运用,多便利啊,你们就不能学一学

  5. 07

    2019-09

    如何构建构建Python爬虫IP代理池服务?

    如何构建构建Python爬虫IP代理池服务?作为一个Python爬虫程序员,在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效

  6. 15

    2021-01

    常见使用代理IP的场景有哪几种

    常见使用代理IP的场景有哪几种!经常有人问:代理IP有什么作用,代理IP怎么使用。今天我们来盘点下使用代理IP的几种常见场景。