注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 为什么有些网站内容采集不了

为什么有些网站内容采集不了

来源:互联网 作者:admin 时间:2019-03-11 16:52:01

如今,网页越来越多,我们即使要收集一些信息,大多数也是通过采集获得的,不然都自己人工去弄,实在是太耗时间了。

但是我们是采集的时候,有些网站内容采集不了,或者采集到的信息是乱码,并不是前端显示的内容,这是为什么呢?

为什么有些网站内容采集不了

其实,这是因为网站设置了反爬虫,通过各种各样的方法来限制我们获取到这些内容,比如:

1.把内容页面里的特定标记替换为“特定标记+隐藏版权文字”。


采集对策:把采集来的含有隐藏版权文字内容的版权文字替掉,或替换成自己的版权。


2.用javascript、vbscript脚本做分页。


采集对策:分析javascript、vbscript脚本,找出其分页规则,自己做个对应此站的分页集合页即可。


3.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问。


采集对策:只能放慢采集速度,或者使用IP代理精灵,更换不同的IP地址,多线程进行采集。


4.只允许用户登陆后才可以浏览


采集对策:利用XMLHTTP实现表单的提交以及cookies或session的发送。


5.用javascript加密内容页面


采集对策:把解密码的JS脚本也采下来。


为什么有些网站内容采集不了?实际上是网站设置了各种的反爬虫,对于这些反爬虫,大家最好可以找到对应的方法,这样可以实现采集了。上文介绍了5个网站设置的限制,也给大家支招了,仅供参考。

 

最新资讯

推荐阅读

  1. 18

    2019-06

    代理IP与网络营销的相辅相成关系

    很多做营销的朋友们都知道代理IP这个简单实用的工具,不仅能提高工作效率,也会对工作的效果有很大的提升帮助。代理IP是现代网络上新兴的一种上网方式,已经在很多人的日常上网中必不

  2. 12

    2019-06

    转发代理服务器与反向代理服务器是什么?有什么区别?

    说到代理服务器,大部分人都应该比较熟悉了。记得在学校的时候因为校园网无法访问国外网站,因此经常使用代理来访问国外的网站。但是提到反向代理服务器可能大部分人就比较陌生,对于

  3. 22

    2019-05

    网站更换IP会对收录有什么影响

    IP对于网站来说相当于是一个身份证,如果频繁换新对网站还是会带来一些波动的。那么,网站更换IP会对收录有什么影响呢?接下来小编就跟大家聊聊,一起来看看吧!1、百度快照停止搜索和

  4. 03

    2019-12

    解析使用免费代理IP具有哪些危害性?

    解析使用免费代理IP具有哪些危害性?使用免费代理IP上网,就像是没有任何抗体的新生儿一样,很容易被病毒感染,专注于提供HTTP系列产品代理服务的高端优质IP代理企业ip代理精灵,将为你具

  5. 14

    2019-11

    电商效果补量用什么代理IP比较好?

    电商效果补量用什么代理IP比较好?在网络大爆炸时代,电商经济迅速发展系下,很多场景都需要效果补量,如电商营销、直播流量、文章点击等。那么,电商效果补量用什么代理IP比较好?

  6. 19

    2019-04

    爬虫ip代理服务器的简要思路

    爬虫有的时候会遇到被禁ip的情况,这个时候你可以找一下代理网站,抓取一下ip,来进行动态的轮询就没问题了,也可以用别人做好的第三方ip代理平台,比如说crawlera,crawlera是一个利用代理IP