注意: IP精灵代理仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

您好,请登录 没有账号?

首页 > 新闻资讯 > 爬虫的采集速度要控制在什么范围之内?

爬虫的采集速度要控制在什么范围之内?

来源:互联网 作者:admin 时间:2019-02-25 17:08:29

我们都知道,如果爬虫一直快速的访问一个网站,会给网站服务器带来比较大的压力,这么明显的异常访问,网站人员肯定会检测到问题的。因此,为了能够持续的采集数据,这速度肯定是要控制的,那么爬虫的采集速度要控制在什么范围之内?


要避免爬虫采集过快被对方发现,那么首先要知道什么样的采集速度是快。网站的用户是人,访问的速度自然是根据用户来设置的,超出人的范围速度就过快了。


每个网站限制的访问频率可能不一样,我们最好先测试下网站的访问阈值,设置合理的访问时间阈值。另外还要注意,不是设置固定的访问时间间隔,需要设置随机的时间间隔,因为大批量一样的时间间隔,肯定是不是人,不是机器刷的还是爬虫代码爬取的,所以要注意这一点。


1.设置随机访问时间间隔方法:


很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent,可以设置访问的时间间间隔长一点,比如没抓取一个页面休眠一个随机时间:


import time,random


time.sleep(random.random()*3)


对于一个crawler来说,这是一个比较responsible的做法。


2.爬虫有时候会因为爬去某些网页速度极慢,影响性能。所有可以设置超时时间。


timeout单位秒


设置超时时间为0,使用try语句。


爬虫的采集速度要控制在什么范围之内?


输出异常:a


timeout设置为一之后就能正常返回获取的html代码了。


以上是介绍了关于“爬虫的采集速度要控制在什么范围之内”这个问题的一些分析,可供参考。合理的控制访问速度,可以降低服务器负载,还能起到防封的效果。不然即使使用了代理IP,这过快的速度还是出卖了你。


最新资讯

推荐阅读

  1. 04

    2019-01

    爬虫遇到403错误怎么处理?为什么爬虫会被拒绝访问?

    ​爬虫在进行爬取数据时,有时候会出现403错误,这是什么?表明什么意思呢?其实403Forbidden是HTTP协议中的一个状态码,它的意思是没有权限访问此站,即被拒绝了访问,这是为什么?

  2. 30

    2019-04

    购买ip代理时要避免哪些错误

    如果你打算购买代理服务。不管你是打算用来实现web抓取、价格监视、广告验证或其他类型的在线操作,都必须认真挑选。下文给大家整理了购买ip代理时要避免哪些错误,一起来了解看看吧。(

  3. 11

    2019-06

    HTTP代理(转发代理&反向代理)与重定向

    你对HTTP代理(转发代理&反向代理)与重定向了解多少呢?今天本文就来大家普及相关的知识,希望对你有用。转发代理服务器Forward Proxy:客户端无法直接请求服务器,只能将请求发往转发代理

  4. 07

    2019-05

    爬虫行动被限制,可以试试改换ip

    知己知彼百战不殆,对于竞争对手或者目标消费群体的数据收集,我们乐此不疲。在ip代理盛行的今天,爬虫技术已经可以被我们充分发挥,海量收集数据,毫不手软。如果不用代理ip,我们的

  5. 15

    2019-04

    爬虫过程中代理ip的使用

    在实际的爬虫抓取的过程中,由于会存在恶意采集或者恶意攻击的情况,很多网站都会设置相应的防爬取机制,通常防爬程序都是通过ip来识别机器人用户的,因此充足可用的ip信息可以为我们

  6. 16

    2019-05

    使用换ip软件后网络无法连接怎么办

    使用换ip软件后网络无法连接怎么办?如今使用换ip软件的人逐渐增多,不可避免的会碰上换ip软件账号无法正常连接的情况。这就要求我们必须保证自己的账户名和密码是对的,有一部分软件网

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961