注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册

首页 > 新闻资讯 > IP代理工程师告诉你有哪些厉害的反爬手段

IP代理工程师告诉你有哪些厉害的反爬手段

来源:IP代理精灵 作者:admin 时间:2019-06-04 11:04:22

爬虫与反爬虫天生就一对双胞胎,谈到反爬虫,或许你最先想起的是User-Agent+ Referer检测、验证码、ip访问速度、账号及cookie验证等,这类反爬虫对大家而言根本没有难度可言,完全能利用IP代理精灵所获得的动态ip加其它的一些措施实现完美的伪装,接近于真实用户浏览的,可是,别以为这样就没有后顾之忧了,一起来看下脑洞大开的前端工程师的反爬虫措施吧。

IP代理工程师告诉你有哪些厉害的反爬手段

一、 FONT-FACE拼凑式


范例:猫眼电影


猫眼电影网站,针对票房信息等展示的并非纯粹的数字。


网页采用font-face定义了字符集,并利用unicode去映射呈现。换句话说,去掉图像识别,必须同时抓取字符集,才能分辨出数字。


而且,每次页面刷新,字符集的url都会发生改变的,显然更大强度地提高了爬取成本。


二、BACKGROUND拼凑式


范例:美团


与font的方式差不多,美团里采用的是background拼凑。数字其实是图片,按照不同的background偏移,显示出不一样的字符。


而且不同页面,图片的字符排序都是有差异的。不过理论上只需生成0-9与小数点,为什么有重复字符还没有搞明白。


三、字符穿插式


范例:微信公众号文章


一些微信公众平台的文章里,穿插了各类迷之字符,而且按照样式把这些字符隐藏掉。


这类方式尽管惨绝人寰…但我觉得找不到太大的识别与过滤难度,甚至能够做得更好,不过也算作一种脑洞吧。


四、伪元素隐藏式


范例:汽车之家


汽车之家网站里,将关键的厂商数据,做到了伪元素的content里。


这又是一种策略:爬取网页,一定得解析css,还要拿到伪元素的content,这就提高了爬取的难度。


五、元素定位覆盖式


范例:去哪儿


酷爱数学的去哪儿,针对一个4位数的票价,首先用4个i标签渲染,然后2个b标签去绝对定位偏移量,覆盖有意呈现错误的i标签,最终在视觉上建立正确的价格…


这就表明爬虫能解析css还不够,还要会做数学题。


六、IFRAME异步加载式


范例:网易云音乐


网易云音乐网页一打开,html源码里基本上只有一个iframe,而且它的src是空白的:about:blank。接着js开始运行,把整个页面的框架异步塞到了iframe里面…


不过这一方法造成的难度并不大,仅仅在异步与iframe处理上绕了个弯,不管你是用selenium还是phantom,都有API能够拿到iframe里面的content数据。


七、字符集替换式


范例:去哪儿移动版


一样会欺骗爬虫的还有去哪儿的移动版。


html里明明写的3211,视觉上呈现的却是1233。原来他们重新定义了字符集,3与1的顺序刚好调换得来的结果…


因此,进行数据爬取的时候,需要对将爬取的目标进行分析,使用对应的应对措施破解反爬,而其中动态拨号vps正是必不可少的一种工具,它能帮助爬虫工程师解决IP限制问题,如爬虫抓取任务事半功倍。


最新资讯

推荐阅读

  1. 22

    2020-06

    爬虫代理ip知识大汇总

    爬虫代理ip知识大汇总!对于爬虫初学者来说,在爬虫工作中可能会遇到很多问题,最常见的封IP问题,代理IP选择及使用问题,反爬虫问题等等。想要更好的完成日常的爬虫工作,有必要多了解

  2. 16

    2019-01

    换IP,使用代理IP要注意这些事项

    大家不要以为换IP是个非常简单的事情,其实换IP的方法比较多,不同的需求导致换IP的方法不同,一般大家换IP也只是重新连接网络,利用自动获取的方法来换IP地址,这确实是非常简单的。

  3. 06

    2019-11

    如何通过更换ip批量注册账号?

    如何通过更换ip批量注册账号?很多时候,我们在做问答营销或者论坛发帖时都遇到过这种情况,比如在一些网站上面批量注册帐号、发布留言评论,或在使用一些即时通讯软件频繁发送消息等等

  4. 13

    2019-11

    使用http代理的API需要添加验证的原因

    使用http代理的API需要添加验证的原因!在寻找IP代理提供商的时候,大家都可以发现,尤其是http代理的,大部分公司的网站上都可以看到可以免费使用的ip,那这些代理是怎么来的呢,实际上这

  5. 11

    2019-05

    ip代理精灵教你反网络爬虫以及解决方案

    做技术的或者是互联网行业的人可能都比较清楚,网络爬虫对于互联网的共享是非常大的,其中有超过一半的流量都是网络爬虫的贡献,如果一个网站不设置发爬虫机制,那就会成为一个透明的

  6. 22

    2021-03

    代理服务器以怎样的形式呈现

    代理服务器以怎样的形式呈现?哪种形式应用率最高?为了能够促进企业的迅猛发展,也为了保证内部人员的高效工作,所以专业的代理服务器会为大家提供批量IP服务,在一定程度上提升了企业