网络爬虫,也有善恶之分,想搜索引擎这些网络爬虫,可以通过用户的关键词搜索,为用户展示需要的信息,这是好的网络爬虫,网站也都欢迎这些网络爬取去爬取,从而获得好的排名。
而爬虫也有黑暗的一面,大数据时代,网络爬虫成为低成本获取数据的捷径,经常沦为“黑暗武器”。爬虫生态链里有这么一类公司,专门替人爬虫,增加APP的虚拟访问量;很多公司去竞争对手网站或APP上爬数据,然后拿过来自己用。
在2016年,有媒体曝出,大众点评网起诉百度,称百度未经许可,使用爬虫技术从“大众点评网”上大量获取用户点评信息,用于自家的百度地图及百度知道产品。最终一审判决,要求百度停止不正当竞争行为,并赔偿323万。
可以说,使用网络爬虫用于不正当的行为,是有风险的。
虽然很多人号称,只要技术好,就没有爬不到的数据,例如爬取淘宝、社交网络、网上银行等,不管是网站还是APP,只要有账号密码就可以爬,连央行的征信报告都能爬。
但其风险性非常大的,网站也为了保护自己的利益,设置各种的反网络爬虫,像IP限制,验证码限制,动态加载,伪装数据等等。
比如,对于单一IP和设备频繁登录,直接封掉;
比如,网站调整为动态的,只有正常用户行为,才能调取数据;
比如,以前一个移动商城只要一个短信验证码,后来升级了,验证码又加了一个...
使用各种的反网络爬虫,来影响网络爬虫的爬取,即使爬虫使用各种工具,比如代理IP,人工打码等来突破这些限制,也是要花成本的,当成本高于利益时,也就没有人去做这事情了。