网络爬虫原本仅用于搜索引擎,但是随着互联网技术的发展,特别是大数据的到来,很多人都学习爬虫,企业也需要采集数据挖掘有价值的资料,但是这些爬虫采集的数据并不一定都是公开的,而是从网络上“偷”数据,这可能会引起比较严重的问题,比如采集用户信息泄露,也有可能引发法律风险。那么这网络爬虫采集数据没有限制的吗?下面跟IP代理精灵一起去了解一下网络爬虫要遵循什么原则。
一、网络爬虫有什么危害
1.注册用户被扫描
如果在网站的注册页面输入一个已注册过的号码,通常会看到“该用户已注册”的提示,这一信息也会在请求的response中显示,一些网站的短信接口也有类似逻辑,注册用户和非注册用户返回的字段和枚举值会有不同。利用这一业务逻辑,恶意爬虫通过各类社工库拿到一批手机号后可以在短时内验证这批号码是否为某一网站的注册用户。
这个数据有什么利用价值?除了很明显的违法欺诈外,攻击者可以将数据打包出售给竞争对手或感兴趣的数据营销公司,完善他们的精准营销数据。
2.核心文本被爬
网站的核心文本可能在几小时甚至几分钟内就被恶意爬虫抓取并悄无声息的复制到别的网站。核心内容被复制会极大影响网站和网页本身在搜索引擎上的排名,低排名会导致访问量降低和销量、广告收益降低的恶性循环。
在内容为王、用户粘性不高的今天,核心内容很大程度上会影响网站在用户心目中的价值。若网站以文本为商品作为盈利点,那恶意爬虫更是影响KPI的罪魁祸首。
3.加重服务器负担
网络爬虫会不停的向服务器发出请求,影响服务器性能,对服务器产生骚扰行为,并加大了网站维护者的工作量。对于带宽有限的中小型网站,爬虫可能会降低网页加载速度,影响真实用户的访问体验。
4.其他危害
点击欺诈:点击欺诈会给网站造成实实在在的利益损失。投放广告通常是为了触达符合网站定位的潜在消费者,爬虫造成的点击欺诈使得广告的点击率虚高,使得网站承担了本不应承担的点击费用。从运营角度出发,访问量无原因的忽高忽高也不利于分析广告投放效果。
二、网络爬虫要遵循什么原则
1.控制采集速度
越来越多的网站设置了反爬虫机制,通过各种限制防范大量的爬虫。爬虫在采集过程种应该降低采集数据,尽量不影响目标网站体验效果。否则大量的采集会拖垮服务器,网站挂了,你也采集不了。我们在编写网络爬虫时,就需要去尊重网站的维护人员对网站资源的管理。
2.遵循Robots协议
通过Robots协议来告诉网络爬虫需要遵守的规则,哪些可以爬取,哪些是不允许的,并要求所有的爬虫遵守该协议。
上文介绍了网络爬虫有什么危害,以及网络爬虫要遵循什么原则。从道德和技术上对网络爬虫做了的有效限制,网络爬虫可以不遵守,但可能会存在法律风险。因此,在使用网络爬虫时,我们需要做到“盗亦有道”。