注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 爬虫的采集速度要控制在什么范围之内?

爬虫的采集速度要控制在什么范围之内?

来源:互联网 作者:admin 时间:2019-02-25 17:08:29

我们都知道,如果爬虫一直快速的访问一个网站,会给网站服务器带来比较大的压力,这么明显的异常访问,网站人员肯定会检测到问题的。因此,为了能够持续的采集数据,这速度肯定是要控制的,那么爬虫的采集速度要控制在什么范围之内?


要避免爬虫采集过快被对方发现,那么首先要知道什么样的采集速度是快。网站的用户是人,访问的速度自然是根据用户来设置的,超出人的范围速度就过快了。


每个网站限制的访问频率可能不一样,我们最好先测试下网站的访问阈值,设置合理的访问时间阈值。另外还要注意,不是设置固定的访问时间间隔,需要设置随机的时间间隔,因为大批量一样的时间间隔,肯定是不是人,不是机器刷的还是爬虫代码爬取的,所以要注意这一点。


1.设置随机访问时间间隔方法:


很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent,可以设置访问的时间间间隔长一点,比如没抓取一个页面休眠一个随机时间:


import time,random


time.sleep(random.random()*3)


对于一个crawler来说,这是一个比较responsible的做法。


2.爬虫有时候会因为爬去某些网页速度极慢,影响性能。所有可以设置超时时间。


timeout单位秒


设置超时时间为0,使用try语句。


爬虫的采集速度要控制在什么范围之内?


输出异常:a


timeout设置为一之后就能正常返回获取的html代码了。


以上是介绍了关于“爬虫的采集速度要控制在什么范围之内”这个问题的一些分析,可供参考。合理的控制访问速度,可以降低服务器负载,还能起到防封的效果。不然即使使用了代理IP,这过快的速度还是出卖了你。


最新资讯

推荐阅读

  1. 29

    2019-05

    代理IP软件对于电商工作的作用

    代理IP软件对于电商工作的作用有哪些?我们现在的生活中,网络的发展速度是非常迅速的,所以有很多企业是依靠网络发展也更加壮大。现在电商的出现,方便了我们的生活。所以也有越来越

  2. 11

    2019-06

    HTTP代理(转发代理&反向代理)与重定向

    你对HTTP代理(转发代理&反向代理)与重定向了解多少呢?今天本文就来大家普及相关的知识,希望对你有用。转发代理服务器Forward Proxy:客户端无法直接请求服务器,只能将请求发往转发代理

  3. 08

    2019-11

    爬虫代理和隧道代理有什么区别?

    爬虫代理和隧道代理有什么区别?HTTP代理指的是使用代理服务器使网络用户访问外部网站。代理服务器是介于浏览器和Web服务器之间的一台服务器,是建立在超文本传输协议上的网络浏览方式,

  4. 07

    2019-05

    ip修改器怎么换ip

    现在做什么东西都需要变动IP:比如多注册账号,变动自己IP显示地址保护自己,很多工作都需要的,这个时候用ip修改器就可以解决你的问题,下面以ip代理精灵为例介绍ip修改器怎么换ip。1、

  5. 13

    2019-11

    盘点http代理ip高效突破反爬虫机制

    盘点http代理ip高效突破反爬虫机制!因为 Python 语法简介以及强大的第三方库,所以我们使用它来制作网络爬虫程序。网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来。

  6. 25

    2018-12

    四种代理ip的使用方法【图文介绍】

    许多场景都需要用到代理,进行IP的切换,以此来达到隐藏自身IP,或者突破网络限制,或者提高访问速度等等的目的。这代理的使用方法是怎样的呢?代理可以根据需要不同,而设置不同的...