注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 大规模爬虫需要注意哪些问题?

大规模爬虫需要注意哪些问题?

来源:IP代理精灵 作者:admin 时间:2019-10-31 13:46:28

大规模爬虫需要注意哪些问题?网络爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能抓取单个网站页面上的数据信息。但对于大规模网络爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的麻烦。

大规模爬虫需要注意哪些问题

反反网络爬虫

网络爬虫的固定套路也就那么多,各种网络站点抓取策略的不同就在于网络站点的反网络爬虫机制不同,因此多作试验,摸清网络站点的反爬机制,是大规模网络爬虫的先行工作。网络爬虫与反网络爬虫是无休止的斗争,也是一个见招拆招的过程,但总体来说,以下方法还可以绕过常见的反网络爬虫。

加上headers。这是最基础的手段。加上了请求头就还可以伪装成浏览器,混过反爬的第一道关卡;反之,连请求头都不加,网络站点还可以直接看出是程序在访问而直接拒绝。一般的网络站点加上User-Agent就还可以,反爬严格的网络站点则要加上cookie甚至各种参数都要加上。

随机延时。这是最简单有效的一种手段。稳定性是大规模网络爬虫的另一个核心麻烦,虽然与效率冲突。许多网络站点都会统计同一个IP一段时间内的访问频率,假如采集过快,会直接封禁IP。不要为了一时爽而不加延时导致几分钟后IP就被封24小时,还不如老老实实地加延时慢慢爬一夜爬完。至于延时加多少因各个网络站点而异,但一般情况下延时个3~5秒就足够了。

假如页面量实在太大,每次访问设置的随时延时也会成为额外大量的时间成本。单个IP快速访问会有被封的风险,这是就要用代理池,有两点好处:一是降低某个IP单位时间内的访问频率,降低被封风险;二是即使IP被封,也有别的IP还可以继续访问。代理池有免费和收费的,免费代理还可以从许多网络站点上获取(这也是一个网络爬虫项目),但大部分都没用,有用的小部分也会很快挂掉;收费代理好一点,但也好不了多少。高质量的代理成本就高了不少,这个要结合项目实际要求来考虑成本。所以,假如网络站点不封IP就还可以不用代理,以免减慢访问速度,增大被拒的概率。

有的网络站点必须要登录才能访问,才能网络爬虫。以知乎为例,知乎的模拟登录必较简单,甚至现在都没有对帐号和密码加密,直接明文post就还可以。请求头的cookie含有登录信息,而知乎的cookie寿命较长,所以还可以直接在网络站点上人工登录然后把cookie复制到代码中;知乎目前的反爬机制是假如判断是机器人就封帐号但不封IP——封IP是同样的机器无法访问,但却还可以用同样的帐号在其他机器上访问;封号是同样的帐号在各种终端上都无法访问,但同一台机器上却还可以换号访问。基于这种机制,爬知乎就不需要IP代理池而需要的是帐号池。举另一个例子,腾讯有一个子网络站点,它也要求必须QQ登录,而且cookie只有6分钟的寿命,而且一个帐号一天只能访问130次超过就封号,无论爬得再慢——这种情况下只能搞大量的QQ号进行自动登录并不断切换。

假如有的网络站点的反爬机制实在太过丧心病狂,各种JS代码逻辑特别复杂艰深,那只能模拟浏览器了。模拟浏览器其实就是一种自动的浏览器访问,与正常的用户访问很类似,所以还可以跳过大部分的反爬机制,因为你装得实在太像正常用户;不过缺点也很明显,就是慢。所以还可以用requests搞定的优先用requests,实在没有办法了再考虑模拟浏览器。推荐阅读:快速重启动态IP的方法

验证码。验证码一出就蛋疼了……Python有自动识别图像的包,不过对于大部分网络站点的验证码都无能为力。写一个自动识别验证码的程序理论上不是不行,但是这种复杂的机器学习项目一点都不比网络爬虫系统本身难度低,从成本的角度考虑实在是得不偿失——何况对于有些网络站点如谷歌,验证码识别是非常困难的。所以对于验证码麻烦,首先是躲过去尽量不要触发验证码,实在触发了只能乖乖人工去填验证码。

各种各样的反爬机制也算是因垂斯听,只有身经百战,爬得多了,才能谈笑风生,网络爬虫水平不知道高到哪去了。有哪些有趣的反网络爬虫手段?

ip代理精灵致力于提供高质量,高匿名度的IP代理服务,安全、稳定、高匿、高质量,可用率高达95%以上,运营商正规授权机房,支持自定义提取API,承受高并发量。ip代理精灵为您提供全方位服务,助力于您的大数据行业发展。——ip代理精灵运营管理团队

最新资讯

推荐阅读

  1. 06

    2019-03

    如何提高网站流量?

    网站访问量也成为网站流量,流量是一个网站建设的关键。流量是访问网站的访客数以及访客浏览的网页数量等指标。如果一个网站没有流量的话,是非常失败的,要怎么做推广,才能带来流量

  2. 19

    2019-08

    怎么正确使用代理IP

    很多网络营销的用户都知道,投票、注册帐号、发帖子等工作,都需要用到代理IP这个工具,才能毫无限制的操作。那么,怎么正确使用代理IP呢?代理IP就是换网页代理的服务器,主要是将HTTP

  3. 19

    2020-06

    代理IP怎样抵御网络攻击

    代理IP怎样抵御网络攻击!互联网时代,个人信息不再私密。常常有新闻报道因为个人信息被不法分子利用,所以造成经济损失。网民大多对黑客有一定认识,他们是可以设法在未经授权的情况下

  4. 01

    2019-06

    手机动态IP地址切换软件

    现在手机的使用比较广,不管是手机工作还是手机娱乐,也是可能需要更换IP地址的,那么手机动态IP地址切换软件哪款好用呢?其实目前有很多工具都能够满足手机ip的修改需求,只不过每个人

  5. 20

    2019-08

    网络推广为什么要换IP

    很多新做网络推广的人员一开始都不知道要换IP,更不知道有代理IP软件的存在。那么,网络推广为什么要换IP呢?今天小编就来跟大家说一说。

  6. 06

    2018-12

    一个稳定的IP池:怎么维护爬虫的IP池

    对于爬虫使用的IP池,当然是IP越多,质量越好,爬虫的爬取效果才会更高。如果使用免费的代理IP,效率肯定是大大降低的,一个稳定的IP池对于爬虫的重要性不言而喻。