注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > Python爬虫设置代理IP的方法

Python爬虫设置代理IP的方法

来源:互联网 作者:admin 时间:2019-04-14 16:19:00

在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,这里讲述一个爬虫技巧——设置代理IP。


配置环境


安装requests库


安装bs4库


安装lxml库


具体代码

Python爬虫设置代理IP的方法

函数get_ip_list(url, headers)传入url和headers,最后返回一个IP列表,列表的元素类似122.114.31.177:808格式,这个列表包括国内髙匿代理IP网站首页所有IP地址和端口。


函数get_random_ip(ip_list)传入第一个函数得到的列表,返回一个随机的proxies,这个proxies可以传入到requests的get方法中,这样就可以做到每次运行都使用不同的IP访问被爬取的网站,有效地避免了真实IP被封的风险。


proxies的格式是一个字典:{‘http’: ‘http://122.114.31.177:808‘},可以将下面的执行也封装为方法。


代理IP的使用


运行上面的代码会得到一个随机的proxies,把它直接传入requests的get方法中即可

Python爬虫设置代理IP的方法

最新资讯

推荐阅读

  1. 21

    2019-08

    用你们的代理访问网站还会被封吗?

    很多IP代理精灵的客户会有这样的疑问,用你们的代理访问网站还会被封吗?IP代理精灵的所有IP都是来源自建,使用动态代理能极大程度减少被封的概率,但不合理的策略仍然可能会导致被封,

  2. 06

    2019-05

    路由器动态ip获取不到如何处理

    路由器设置动态IP上网时,一直获取不到动态IP怎么办?路由器中设置动态IP上网后,路由器中一直显示正在获取动态IP,但就是获取不到动态IP地址信息。出现这样的情况,原因是多种多样的,

  3. 12

    2019-06

    代理服务器介绍

    代理服务器是介于浏览器和Web服务器之间的一台服务器。其功能是代理用户去取得网络信息。网络信息则是通过代理服务器进行中转的。下面由小编来为大家详细介绍代理服务器。

  4. 10

    2019-10

    如何规避贴吧帖子被删除?

    如何规避贴吧帖子被删除?做网络营销推广的都少不了在百度帖吧发帖子。百度贴吧平台是一个推广发帖很好的平台,所发布的帖子也容易百度转化为收录,seo优化排名重要的部分,一直都是网

  5. 29

    2019-04

    使用代理IP爬取数据的两种方式

    大数据时代下,数据爬取成为很多企业和个人的工作重点,过程中经常遇到很多问题,比如时间限制、IP限制、验证码限制等等,都可能会导致爬虫无法进行,所以我们常常会用到代理IP,今天

  6. 16

    2019-10

    最新代理IP与高匿代理IP的使用

    最新代理IP与高匿代理IP的使用!在现在的网络生活中,代理IP的使用越来越普遍,不仅是从事网络营销的工作人员喜欢使用,普通人们也喜欢使用代理IP来抢购或者浏览网页等。经常能够在网络上