注意: IP精灵代理仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

您好,请登录 没有账号?

首页 > 新闻资讯 > IP代理工程师告诉你有哪些厉害的反爬手段

IP代理工程师告诉你有哪些厉害的反爬手段

来源:IP代理精灵 作者:admin 时间:2019-06-04 11:04:22

爬虫与反爬虫天生就一对双胞胎,谈到反爬虫,或许你最先想起的是User-Agent+ Referer检测、验证码、ip访问速度、账号及cookie验证等,这类反爬虫对大家而言根本没有难度可言,完全能利用IP代理精灵所获得的动态ip加其它的一些措施实现完美的伪装,接近于真实用户浏览的,可是,别以为这样就没有后顾之忧了,一起来看下脑洞大开的前端工程师的反爬虫措施吧。

IP代理工程师告诉你有哪些厉害的反爬手段

一、 FONT-FACE拼凑式


范例:猫眼电影


猫眼电影网站,针对票房信息等展示的并非纯粹的数字。


网页采用font-face定义了字符集,并利用unicode去映射呈现。换句话说,去掉图像识别,必须同时抓取字符集,才能分辨出数字。


而且,每次页面刷新,字符集的url都会发生改变的,显然更大强度地提高了爬取成本。


二、BACKGROUND拼凑式


范例:美团


与font的方式差不多,美团里采用的是background拼凑。数字其实是图片,按照不同的background偏移,显示出不一样的字符。


而且不同页面,图片的字符排序都是有差异的。不过理论上只需生成0-9与小数点,为什么有重复字符还没有搞明白。


三、字符穿插式


范例:微信公众号文章


一些微信公众平台的文章里,穿插了各类迷之字符,而且按照样式把这些字符隐藏掉。


这类方式尽管惨绝人寰…但我觉得找不到太大的识别与过滤难度,甚至能够做得更好,不过也算作一种脑洞吧。


四、伪元素隐藏式


范例:汽车之家


汽车之家网站里,将关键的厂商数据,做到了伪元素的content里。


这又是一种策略:爬取网页,一定得解析css,还要拿到伪元素的content,这就提高了爬取的难度。


五、元素定位覆盖式


范例:去哪儿


酷爱数学的去哪儿,针对一个4位数的票价,首先用4个i标签渲染,然后2个b标签去绝对定位偏移量,覆盖有意呈现错误的i标签,最终在视觉上建立正确的价格…


这就表明爬虫能解析css还不够,还要会做数学题。


六、IFRAME异步加载式


范例:网易云音乐


网易云音乐网页一打开,html源码里基本上只有一个iframe,而且它的src是空白的:about:blank。接着js开始运行,把整个页面的框架异步塞到了iframe里面…


不过这一方法造成的难度并不大,仅仅在异步与iframe处理上绕了个弯,不管你是用selenium还是phantom,都有API能够拿到iframe里面的content数据。


七、字符集替换式


范例:去哪儿移动版


一样会欺骗爬虫的还有去哪儿的移动版。


html里明明写的3211,视觉上呈现的却是1233。原来他们重新定义了字符集,3与1的顺序刚好调换得来的结果…


因此,进行数据爬取的时候,需要对将爬取的目标进行分析,使用对应的应对措施破解反爬,而其中动态拨号vps正是必不可少的一种工具,它能帮助爬虫工程师解决IP限制问题,如爬虫抓取任务事半功倍。


最新资讯

推荐阅读

  1. 15

    2019-05

    动态IP和静态IP的工作原理

    在Internet上有千百万台主机,为了区分这些主机,人们给每台主机都分配了一个专门的地址,称为IP地址。IP地址可以为两个动态IP地址和静态IP地址。下面分享动态IP和静态IP的工作原理,希望能帮到

  2. 09

    2019-07

    IP代理精灵的短效优质代理IP为什么都连接不上

    有朋友用了IP代理精灵的短效优质代理IP发现,没有一个连接成功。这是为什么呢,难道IP代理精灵的代理IP出问题了?并非如此,IP代理精灵的短效优质代理IP需要绑定使用代理的机器IP授权,如

  3. 28

    2019-05

    代理ip的稳定性定义

    公网代理服务器受网络带宽、访问量、服务器本身性能等多种因素影响,稳定性普遍较低。ip代理精灵来自于真实家庭用户挂机的ip,不间断地监测每个代理ip的历史数据,根据算法智能判别当前

  4. 14

    2018-12

    爬虫采用多线程还是多进程好

    爬虫可以实现数据的采集,如果说仅是采集一些小数据,对爬虫的要求并不高,但是如果需要采集大量的数据,那么爬虫可以采用多线程或者多进程,究竟是使用哪一种比较好呢?

  5. 28

    2019-06

    使用HTTP代理IP时需要注意哪些方面

    近年来大数据行业迅猛发展,给互联网各行各业带来了蓬勃之气,作为有效资源的HTTP代理IP,更是如雨后春笋般涌现。面对市场中众多IP供应商,越来越多的用户挑花了眼。下面就由小编带大家

  6. 09

    2019-05

    高匿、普匿动态爬虫http代理ip怎么选择

    许多爬虫爱好者或从业者在利用爬虫采集网站数据时,总会遇到ip被目标网站封禁的问题,这个时候就需要用到代理ip。那么我们应该如何选择爬虫代理ip,才能确保数据采集的高效和稳定呢?这

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961