注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 为什么有些网站内容采集不了

为什么有些网站内容采集不了

来源:互联网 作者:admin 时间:2019-03-11 16:52:01

如今,网页越来越多,我们即使要收集一些信息,大多数也是通过采集获得的,不然都自己人工去弄,实在是太耗时间了。

但是我们是采集的时候,有些网站内容采集不了,或者采集到的信息是乱码,并不是前端显示的内容,这是为什么呢?

为什么有些网站内容采集不了

其实,这是因为网站设置了反爬虫,通过各种各样的方法来限制我们获取到这些内容,比如:

1.把内容页面里的特定标记替换为“特定标记+隐藏版权文字”。


采集对策:把采集来的含有隐藏版权文字内容的版权文字替掉,或替换成自己的版权。


2.用javascript、vbscript脚本做分页。


采集对策:分析javascript、vbscript脚本,找出其分页规则,自己做个对应此站的分页集合页即可。


3.判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问。


采集对策:只能放慢采集速度,或者使用IP代理精灵,更换不同的IP地址,多线程进行采集。


4.只允许用户登陆后才可以浏览


采集对策:利用XMLHTTP实现表单的提交以及cookies或session的发送。


5.用javascript加密内容页面


采集对策:把解密码的JS脚本也采下来。


为什么有些网站内容采集不了?实际上是网站设置了各种的反爬虫,对于这些反爬虫,大家最好可以找到对应的方法,这样可以实现采集了。上文介绍了5个网站设置的限制,也给大家支招了,仅供参考。

 

最新资讯

推荐阅读

  1. 18

    2018-12

    爬虫怎么伪装成用户的有效技巧

    爬虫要想正常的爬取信息,首先要让网站知道这是用户在访问,而不是爬虫,即是说爬虫要伪装成用户,那么爬虫怎么伪装成用户呢?

  2. 14

    2019-06

    透明代理、匿名代理、混淆代理、高匿代理有什么区别?

    透明代理、匿名代理、混淆代理、高匿代理有什么区别?这4种代理,主要是在代理服务器端的配置不同,导致其向目标地址发送请求时,REMOTE_ADDR, HTTP_VIA,HTTP_X_FORWARDED_FOR三个变量不同。1、透

  3. 28

    2019-08

    怎样才能隐藏上网IP?

    在浏览互联网时,如果希望不被他人追踪,则需要隐藏您的IP地址。怎样才能隐藏上网IP?有多种方式可以实现,操作难易程度和可靠性各有千秋。

  4. 11

    2019-05

    怎么换IP地址做推广

    怎么换IP地址做推广?现在网上有很多广告联盟点击,想必做网赚的朋友都很熟悉的,通过每次点击广告来获取收益的。而这个跟刷网页排名刷网页点击率那些都一样道理的,只需每次换完IP再

  5. 28

    2019-04

    如何使用私密代理ip避免信息泄露

    互联网正在朝着大数据方向飞速发展,每个人上网的平台也不仅仅局限于电脑等固定客户端,越来越多的移动端电子产品走进大家的生活,虽然这些互联网产品的发展很大程度上的丰富了大家的

  6. 24

    2019-07

    如何更改自己电脑上的公网IP?

    通过 ADSL 猫拨号上网后,在整个互联网上,就会分配给你一个独占的 IP 地址,这个 IP 在全世界都是唯一的,这个 IP 就叫公网 IP。就像你在网上的门牌号一样。那如何更改自己在网络上的门牌号