注意: IP精灵代理仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

您好,请登录 没有账号?

首页 > 新闻资讯 > 如何爬取可用的IP代理

如何爬取可用的IP代理

来源:IP代理精灵​ 作者:admin 时间:2019-04-19 14:38:14

对付反爬虫有一个很关键的方法就是使用IP代理,那么我们应该如何爬取可用的IP代理呢?这里分享一下一些爬取IP代理的心得体会。

如何爬取可用的IP代理

1、步骤


第一可以先找几个提供免费测IP代理的网站,获取到可以使用的IP资源


第二验证对应的IP代理访问出口IP是不是跟本机的出口IP保持一致,得到的不一致的IP代理列表


第三根据自身的实验目的验证IP代理的相应速度,进行排序,择优选用


2、具体做法


第一上网搜索IP代理,例如ip代理精灵、黑核动态ip代理等等


第二可以这里进行验证


第三这个就根据自身爬虫的需要,看是下载东西还是其他的,再进一步测试速度


3、代码


View Code


关于这份代码,有几个地方做一下说明:


· check_a_ip(ip):该函数为IP代理检查函数,返回两个值(一个为访问请求是否成功使用了代理,一个为检查的响应时间)


· start_page、end_page: 手动输入获取IP代理的网页页码,这个需要根据具体网站设定


· for i in range(int(start_page), int(end_page) + 1):主函数的循环,遍历设定范围的网页


· for tr in trs[1:len(trs)]:循环遍历并解析出一个网页中的所有IP代理,以及检验是否可用


· ip_proxy_file:文本写入,最终把结果都写入proxy.txt中


4、拓展


本实验可以采用多线程进行爬取或者检验,这样的爬取速率会快很多,大家有时间可以尝试一下。


最新资讯

推荐阅读

  1. 18

    2019-06

    云服务器能做http代理吗

    云服务器能做http代理吗?只要懂得相应的代码技术,是可以的。想使用云服务器做http代理,首先要在服务商处购买一台云服务器。通常使用代理服务器有以下作用。安全过滤 为了安全,不允许

  2. 19

    2019-06

    爬虫为什么需要HTTP代理IP

    爬虫为什么需要HTTP代理IP?大数据高速发展时代,爬虫行业日益火爆,从业者如过江之鲫,数不胜数,说到爬虫就不得不提另外一个词:代理IP。爬虫虽然大行其道,但相应的反爬虫也步步紧逼

  3. 10

    2018-12

    爬虫通常采集哪些信息?有风险性吗?

    虽然说如果你有技术,什么数据都能爬取到,即使有各种反爬虫设置,但也可以利用各种工具进行突破限制,比如可以突破IP限制的代理IP软件。然而,有些数据是禁止爬取的,如果爬取...

  4. 13

    2018-12

    代理IP支持哪些协议?有区别吗?

    代理服务器可以支持多种协议,但代理IP不一定能支持,通常只能支持比较常用的协议,那么代理IP支持哪些协议呢?选用代理IP之前,一定要先搞清楚,自己使用哪种协议,再选择。

  5. 28

    2019-04

    网站更换IP和空间会影响seo关键词的排名吗?

    做网络的通常都会讨论一个问题,网站更换服务器IP地址对排名有没有影响?简单的说,其实你只要是不频繁的更换,影响也不会很大的。那么对关键词的排名呢?那么还有一个问题,对关键词

  6. 14

    2019-06

    透明代理、匿名代理、混淆代理、高匿代理有什么区别?

    透明代理、匿名代理、混淆代理、高匿代理有什么区别?这4种代理,主要是在代理服务器端的配置不同,导致其向目标地址发送请求时,REMOTE_ADDR, HTTP_VIA,HTTP_X_FORWARDED_FOR三个变量不同。1、透