注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 爬虫的采集速度要控制在什么范围之内?

爬虫的采集速度要控制在什么范围之内?

来源:互联网 作者:admin 时间:2019-02-25 17:08:29

我们都知道,如果爬虫一直快速的访问一个网站,会给网站服务器带来比较大的压力,这么明显的异常访问,网站人员肯定会检测到问题的。因此,为了能够持续的采集数据,这速度肯定是要控制的,那么爬虫的采集速度要控制在什么范围之内?


要避免爬虫采集过快被对方发现,那么首先要知道什么样的采集速度是快。网站的用户是人,访问的速度自然是根据用户来设置的,超出人的范围速度就过快了。


每个网站限制的访问频率可能不一样,我们最好先测试下网站的访问阈值,设置合理的访问时间阈值。另外还要注意,不是设置固定的访问时间间隔,需要设置随机的时间间隔,因为大批量一样的时间间隔,肯定是不是人,不是机器刷的还是爬虫代码爬取的,所以要注意这一点。


1.设置随机访问时间间隔方法:


很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent,可以设置访问的时间间间隔长一点,比如没抓取一个页面休眠一个随机时间:


import time,random


time.sleep(random.random()*3)


对于一个crawler来说,这是一个比较responsible的做法。


2.爬虫有时候会因为爬去某些网页速度极慢,影响性能。所有可以设置超时时间。


timeout单位秒


设置超时时间为0,使用try语句。


爬虫的采集速度要控制在什么范围之内?


输出异常:a


timeout设置为一之后就能正常返回获取的html代码了。


以上是介绍了关于“爬虫的采集速度要控制在什么范围之内”这个问题的一些分析,可供参考。合理的控制访问速度,可以降低服务器负载,还能起到防封的效果。不然即使使用了代理IP,这过快的速度还是出卖了你。


最新资讯

推荐阅读

  1. 08

    2019-05

    换IP常见的方法有哪些

    很多人再帮朋友投票,做网络推广的时候经常需要换IP。大量的工作需要换IP,单单依靠手动切换IP的方法是比较浪费时间的,效果也达不到预期,那么应该如何更换IP呢?今天小编就简单的为大

  2. 23

    2019-05

    HTTP代理服务器如何使用

    HTTP代理服务器如何使用?HTTP代理服务器的设置方法,对于IE和FireFox设置略有不同。设置前需要先找一些可用的免费代理服务器地址。IE的设置是这样的,打开IE浏览器,选择菜单栏的“工具/Inter

  3. 28

    2019-05

    永久关闭win10开机自动开启“使用代理服务器”的方法

    有的用户升级win10 1709版本之后,有的用户在开机时会自动打开“使用代理服务器”,代理服务器会导致我们的电脑无法正常上网,虽然关闭之后可以上网。不过重启电脑又会自动打开,很麻烦

  4. 24

    2019-10

    HTTP常见状态码汇总

    HTTP常见状态码汇总!在我们使用网络是经常会遇到一些状态吗?今天ip代理精灵给大家做了一份HTTP常见状态码汇总,下面大家一起来看看。

  5. 06

    2019-05

    怎么更改IP地址?

    IP地址(Internet协议地址)是一种在Internet上标识计算机的数字方式。网站可以通过您的IP地址了解更多信息。例如,根据您的IP代理地址,我们可以了解您所在的国家/地区。人们更改IP地址以避

  6. 19

    2019-10

    淘宝刷单必选代理ip软件

    淘宝刷单必选代理ip软件!现在说到网购大家可能第一时间想到的就是淘宝,想买市面东西淘宝搜一下,作为国内最大的网络购物平台,淘宝上面的商家成千上万,商品更是数以亿计,这么多的店