注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册

首页 > 新闻资讯 > 网站反爬虫和爬虫的应对方法

网站反爬虫和爬虫的应对方法

来源:互联网 作者:admin 时间:2019-02-22 15:20:42

网站反爬虫比较多,robots限制是最基本的,告诉爬虫们哪些是不可以爬取的。还有其他的限制,比如常见的有IP限制,验证码限制,还有User-Agent检测,JS脚本等等,不同的反爬虫可以起到不同的效果。


网站反爬虫和爬虫的应对方法


1.robots.txt限制


搜索引擎本身就是一个超级大的爬虫,爬虫可以24h不间断的在网上爬取着新的信息,并返回给数据库,但是这些搜索引擎的爬虫都遵守着一个协议:robots.txt


robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。当然在特定情况下,比如说我们爬虫的获取网页的速度,和人类浏览网页是差不多的,这并不会给服务器造成太大的性能损失,在这种情况下,我们是可以不用恪守robots协议的。


2.JS脚本限制


举个例子:如果想爬取某个网站,在请求之前,它会有一个验证页面来验证你是否机器。即会通过js代码生成一大段随机的数字,然后要求浏览器通过js的运算得出这一串数字的和,再返回给服务器。


解决方法:使用PhantomJS


PhantomJS是一个Python包,他可以在没有图形界面的情况下,完全模拟一个”浏览器“,js脚本验证什么的再也不是问题了。


3.User-Agent检测


无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,表明身份。对于爬虫程序来说,最需要注意的字段就是User-Agent,很多网站都会建立user-agent白名单,只有属于正常范围的user-agent才能够正常访问。


解决方法:可以自己设置一下user-agent,或者更好的是,可以从一系列的user-agent里随机挑出一个符合标准的使用。


上文介绍了关于三种网站反爬虫的解决方法,仅供参考,若是在爬取的过程中还是遇到问题,可能是网站还有其他的反爬虫,这在爬取之前是需要进行分析,并找到问题解决的。


如:P限制,可以使用IP代理精灵;验证码限制,可以使用人工打码或者验证码识别...


最新资讯

推荐阅读

  1. 19

    2019-10

    解析爬虫代理ip的真实世界

    解析爬虫代理ip的真实世界!在爬取某些网站时,我们经常会设置代理 IP 来避免爬虫程序被封。我们获取代理 IP 地址方式通常提取国内的知名 IP 代理商如精灵代理ip。这些代理商一般都会提供透

  2. 13

    2019-09

    代理ip平台哪个比较好?

     代理ip平台哪个比较好?其实对于我们国内的很多年轻人来说,他们对于很多国外的网站,无论是娱乐性质或是会有教学性质的网站,都会非常感兴趣。但是毕竟在国内如果没有使用苹果手机的

  3. 27

    2019-05

    哪个免费代理IP好用?

    随着互联网世界发展壮大,营销不再局限于现实生活中,对于做网络营销的工作人员来说,一定遇到过访问网站IP受限这种尴尬情况,网站限制了每位用户的访问次数、注册次数,而ip代理精灵

  4. 25

    2019-08

    怎样通过代理服务器解决爬虫反爬和IP被封问题

    如果你察觉你获取到的信息内容和目标网站所屏幕显示的正常信息不同,换句话说所抓取的信息是一片空白的,那麼很有可能就是你抓取的网站在建立网页页面的时候程序出现了问题,假如爬取

  5. 23

    2019-05

    更改ip地址会带来什么影响

    更改ip地址会带来什么影响呢?一般来说是没什么影响的,因为ip地址主要是为了连接上网使用的。但是有一些电脑的ip地址设定之后并没有自动的连接可以上网的地址,这个时候就要通过换ip软

  6. 04

    2019-12

    代理IP软件的发展现状

    代理IP软件的发展现状!在互联网世界,自1998年中国产生第一笔互联网交易以来,中国电商事业蓬勃发展,如今2017天猫购物狂欢节再创新高,截止11月11日13:09分,天猫交易额达到1207亿元,打破了