注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册

首页 > 新闻资讯 > Python爬虫设置代理IP的方法

Python爬虫设置代理IP的方法

来源:互联网 作者:admin 时间:2019-04-14 16:19:00

在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,这里讲述一个爬虫技巧——设置代理IP。


配置环境


安装requests库


安装bs4库


安装lxml库


具体代码

Python爬虫设置代理IP的方法

函数get_ip_list(url, headers)传入url和headers,最后返回一个IP列表,列表的元素类似122.114.31.177:808格式,这个列表包括国内髙匿代理IP网站首页所有IP地址和端口。


函数get_random_ip(ip_list)传入第一个函数得到的列表,返回一个随机的proxies,这个proxies可以传入到requests的get方法中,这样就可以做到每次运行都使用不同的IP访问被爬取的网站,有效地避免了真实IP被封的风险。


proxies的格式是一个字典:{‘http’: ‘http://122.114.31.177:808‘},可以将下面的执行也封装为方法。


代理IP的使用


运行上面的代码会得到一个随机的proxies,把它直接传入requests的get方法中即可

Python爬虫设置代理IP的方法

最新资讯

推荐阅读

  1. 04

    2020-05

    QQ的IP地址如何修改?

    QQ的IP地址如何修改?QQ是可以修改IP地址的,ip代理精灵支持HTTP代理、Socks代理,还是有浏览器代理,那么这三种代理是怎么设置的呢?

  2. 26

    2020-04

    解读网页referer的作用以及反爬虫的解决方法

    解读网页referer的作用以及反爬虫的解决方法!我们知道,referer的作用就是记录你在访问一个目标网站时,在访问前你的原网站的地址, 比如用Chrome从知乎的某个板块到另外一个,那么你在的这

  3. 14

    2021-05

    代理ip会让网速变慢吗

    代理ip会让网速变慢吗?随着社会科技的快速发展,互联网行业的兴起,大家对于代理ip都已经很熟悉了,代理ip也被广泛的应用在很多场景中,部分网络工作者不能忍受手动更换ip,不仅耗时间,

  4. 19

    2019-07

    几种反向代理服务器比较

    现在,我们对这三层功能结构充分了解,在测试调优及生产线的实践检验中,我们发现:HTTP防御性能:HAProxy在应对大流量CC攻击时,做正则匹配及头部过滤时,CPU消耗只占10%——20%。其它软件

  5. 22

    2019-04

    如何通过变更ip来进行刷票

    参与过网络投票活动的朋友都知道,当我们给其中某一项投票后,马上进行再次投票,投票将不会成功,提示你“您已经投过票了”,那么网络投票系统是如何知道你已经投过票了呢?这就是网

  6. 09

    2020-10

    爬虫业务为什么要用ip代理

    爬虫业务为什么要用ip代理?随着互联网经济的发展,爬虫业务愈来愈关键,可是,在爬取过程中,碰上最多的一个难题就是ip被封。常常正在爬取就爬不了了,ip浏览受限了,或是不断的提示输