注意: IP精灵代理仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

您好,请登录 没有账号?

首页 > 新闻资讯 > 爬虫的采集速度要控制在什么范围之内?

爬虫的采集速度要控制在什么范围之内?

来源:互联网 作者:admin 时间:2019-02-25 17:08:29

我们都知道,如果爬虫一直快速的访问一个网站,会给网站服务器带来比较大的压力,这么明显的异常访问,网站人员肯定会检测到问题的。因此,为了能够持续的采集数据,这速度肯定是要控制的,那么爬虫的采集速度要控制在什么范围之内?


要避免爬虫采集过快被对方发现,那么首先要知道什么样的采集速度是快。网站的用户是人,访问的速度自然是根据用户来设置的,超出人的范围速度就过快了。


每个网站限制的访问频率可能不一样,我们最好先测试下网站的访问阈值,设置合理的访问时间阈值。另外还要注意,不是设置固定的访问时间间隔,需要设置随机的时间间隔,因为大批量一样的时间间隔,肯定是不是人,不是机器刷的还是爬虫代码爬取的,所以要注意这一点。


1.设置随机访问时间间隔方法:


很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent,可以设置访问的时间间间隔长一点,比如没抓取一个页面休眠一个随机时间:


import time,random


time.sleep(random.random()*3)


对于一个crawler来说,这是一个比较responsible的做法。


2.爬虫有时候会因为爬去某些网页速度极慢,影响性能。所有可以设置超时时间。


timeout单位秒


设置超时时间为0,使用try语句。


爬虫的采集速度要控制在什么范围之内?


输出异常:a


timeout设置为一之后就能正常返回获取的html代码了。


以上是介绍了关于“爬虫的采集速度要控制在什么范围之内”这个问题的一些分析,可供参考。合理的控制访问速度,可以降低服务器负载,还能起到防封的效果。不然即使使用了代理IP,这过快的速度还是出卖了你。


最新资讯

推荐阅读

  1. 23

    2019-08

    国内最新HTTP代理IP哪里有

    在很多时候,由于互联网的各种限制,导致我们在访问网站时经常受限,它的表现可能是无法打开网页、注册不成功、无法登陆账号等。在这种情况下我们可以通过使用HTTP代理IP来解决,下面我

  2. 01

    2019-08

    高匿代理IP是什么意思

    在代理IP被人们所熟知的大环境下,常常有一些词汇,例如高匿代理IP,那么想知道高匿代理IP是什么意思,首先需要简单了解一下代理IP的原理。代理IP就是作为用户与互联网之间的中转站,提高

  3. 27

    2019-05

    python爬虫需要了解的代理IP知识

    代理IP,作为现代网络兴起的一种上网方式,被逐步应用于人们的学习、生活中。特别是一些python爬虫,为了业务的顺利进行,代理IP算得上是必备资源。那什么是代理IP呢?大家都知道,IP地址

  4. 20

    2019-04

    代理ip对教育行业有什么帮助

    代理IP对教育行业有什么帮助?随着二胎政策的开放,很多家庭也预备着为家庭带来第二个孩子,从未来教育的规划角度来看,二胎政策的开放,开拓了教育机构的延伸和发展。所以现在很多的

  5. 16

    2019-05

    使用换ip软件后网络无法连接怎么办

    使用换ip软件后网络无法连接怎么办?如今使用换ip软件的人逐渐增多,不可避免的会碰上换ip软件账号无法正常连接的情况。这就要求我们必须保证自己的账户名和密码是对的,有一部分软件网

  6. 24

    2019-08

    用代理IP换IP的作用是什么?

    大家应该都怕碰上类似的情况:网店虚假单子过多导致被封的可能、网站发布过多信息而造成的IP被封的危险、上网速度跟不上而抢不到自己打算购买的商品、这些难题代理IP可以帮你搞定。