如今,网页越来越多,我们即使要收集一些信息,大多数也是通过采集获得的,不然都自己人工去弄,实在是太耗时间了。
但是我们是采集的时候,有些网站内容采集不了,或者采集到的信息是乱码,并不是前端显示的内容,这是为什么呢?
其实,这是因为网站设置了反爬虫,通过各种各样的方法来限制我们获取到这些内容,比如:
1.把内容页面里的特定标记替换为“特定标记+隐藏版权文字”。
采集对策:把采集来的含有隐藏版权文字内容的版权文字替掉,或替换成自己的版权。
2.用javascript、vbscript脚本做分页。
采集对策:分析javascript、vbscript脚本,找出其分页规则,自己做个对应此站的分页集合页即可。
3.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问。
采集对策:只能放慢采集速度,或者使用IP代理精灵,更换不同的IP地址,多线程进行采集。
4.只允许用户登陆后才可以浏览
采集对策:利用XMLHTTP实现表单的提交以及cookies或session的发送。
5.用javascript加密内容页面
采集对策:把解密码的JS脚本也采下来。
为什么有些网站内容采集不了?实际上是网站设置了各种的反爬虫,对于这些反爬虫,大家最好可以找到对应的方法,这样可以实现采集了。上文介绍了5个网站设置的限制,也给大家支招了,仅供参考。