注意: IP精灵代理仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

您好,请登录 没有账号?

首页 > 新闻资讯 > selenium+python设置爬虫代理IP的方法

selenium+python设置爬虫代理IP的方法

来源:IP代理精灵 作者:admin 时间:2019-04-26 14:40:32

这篇文章主要介绍了selenium+python设置爬虫代理IP的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧!

selenium+python设置爬虫代理IP的方法

1. 设置背景


在使用selenium浏览器渲染技术,当我们爬取某个网站的信息的时候,在一般情况下速度都不是特别的快。而且需要利用selenium浏览器渲染技术爬取的网站,反爬虫的应对技术都比较厉害,对IP访问频率有很高程度的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:


第一方面, 抓取频率要提高,破解出现的验证信息,一般都是验证码或者是用户登陆 。


第二方面,使用多线程 + 代理IP, 这种方式,需要电脑有足够的内存和充足稳定的代理IP。


2. 为chrome设置代理IP


注意事项:


第一,选择稳定的固定的代理IP。不要选择动态代理IP。我们常用的爬虫IP代理通常都是具有高度保密性质的高匿名动态IP,是通过拨号动态产生的,时效性非常的短,一般都是在3分钟左右。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。


第二,选择速度较快的代理IP。因为selenium爬虫采用的是浏览器渲染技术,这种浏览器渲染技术速度就本身就很慢。如果选择的代理IP速度较慢,爬取的时间就会进一步增加。


第三,要有足够大的电脑内存。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。


第四,在程序结束时,调用 browser.quit( ) 清除浏览器缓存。


最新资讯

推荐阅读

  1. 06

    2019-03

    网站反爬虫太严,爬虫有哪些方法突破

    很多人初接触网络,就知道了什么是搜索引擎,也会经常使用搜索引擎,但是对于网络爬虫的认识并不清楚,其实搜索引擎也是网络爬虫,只是搜索引擎是大家都欢迎的,但网络爬虫就不一定了

  2. 26

    2019-04

    为什么互联网工作者离不开代理ip

    互联网时代下,80%的职业都需要用到网络、计算机。对于各类互联网工作者来说,代理IP应用于工作的方方面面,是必不可少的一部分。为什么互联网工作者离不开代理ip?下面我们来看看具体

  3. 19

    2019-04

    http/https等爬虫代理ip的基本实现原理

    爬虫工作者在试用爬虫进行数据搜集的过程中经常会遇到这样的情况,刚开始的时候爬虫的运行情况是正常的,数据的抓取状况也在有条不紊的进行着,然而可能你一眼照顾不到就会出现错误,

  4. 26

    2019-04

    python爬虫使用代理ip或请求头的问题

    python爬虫使用代理ip或请求头的问题,接下来我们一起来看看!在request库中使用代理ip实例如下 一、 Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接。'))) 这种情

  5. 26

    2019-04

    动态ip代理的工作原理是什么

    一听到IP代理,咱们有种似曾相识又陌生的感觉。到底IP代理是什么?动态ip代理的工作原理是什么呢?听不懂的朋友,来,咱们科普时间到啦!通常情况下,代理ip网用公网IP接入Int关采取双网卡结

  6. 14

    2019-05

    如何使用动态拨号vps通过爬虫抓取贴吧数据

    有时需要批量获取数据,如果要获取的网页非常多,一页一页的翻是不是太累了,有没有简单的方法?下面小编教教大家如何使用动态拨号vps通过爬虫抓取贴吧数据。想要批量获取数据,可以利

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961