注意: IP精灵代理仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

您好,请登录 没有账号?

首页 > 新闻资讯 > python开源IP代理池--IPProxys

python开源IP代理池--IPProxys

来源:互联网 作者:admin 时间:2019-03-19 15:56:21

突破反爬虫机制的一个重要举措就是代理ip。拥有庞大稳定的ip代理,在爬虫工作中将起到重要的作用,但是从成本的角度来说,一般稳定的ip池都很贵,因此我这个开源项目的意义就诞生了,爬取一些代理网站提供的免费ip(虽然70%都是不好使的,但是扛不住量大,网站多),检测有效性后存储到数据库中,同时搭建一个http服务器,提供一个api接口,供大家的爬虫程序调用。



好了,废话不多说,咱们进入今天的主题,讲解一下我写的这个开源项目IPProxys。


下面是这个项目的工程结构:

python开源IP代理池--IPProxys

api包:主要是实现http服务器,提供api接口(通过get请求,返回json数据)


data文件夹:主要是数据库文件的存储位置和qqwry.dat(可以查询ip的地理位置)


db包:主要是封装了一些数据库的操作


spider包:主要是爬虫的核心功能,爬取代理网站上的代理ip


test包:测试一些用例,不参与整个项目的运行


util包:提供一些工具类。IPAddress.py查询ip的地理位置


validator包:用来测试ip地址是否可用


config.py:主要是配置信息(包括配置ip地址的解析方式和数据库的配置)


接下来讲一下关键代码:


   首先说一下apiServer.py,主要是产生一个http服务器。


class WebRequestHandler(BaseHTTPServer.BaseHTTPRequestHandler):



    def do_GET(self):

        """

        """

        dict={}


        parsed_path = urlparse.urlparse(self.path)

        try:

            query = urllib.unquote(parsed_path.query)

            print query

            if query.find('&')!=-1:

                params = query.split('&')

                for param in params:

                    dict[param.split('=')[0]]=param.split('=')[1]

            else:

                    dict[query.split('=')[0]]=query.split('=')[1]

            str_count=''

            conditions=[]

            for key in dict:

                if key =='count':

                    str_count = 'lIMIT 0,%s'% dict[key]

                if key =='country' or key =='area':

                    conditions .append(key+" LIKE '"+dict[key]+"%'")

                elif key =='types' or key =='protocol' or key =='country' or key =='area':

                    conditions .append(key+"="+dict[key])

                    

 从代码中可以看出是对参数的解析,参数包括 count(数量), types(模式),protocol(协议),country(国家),area(地区),(


types类型(0高匿名,1透明),protocol(0 http,1 https http),country(国家),area(省市))


例如访问http://127.0.0.1:8000/?count=8&types=0.返回json数据。如下图所示:

python开源IP代理池--IPProxys

SQLiteHelper.py(主要是对sqlite的操作)



HtmlPraser.py(主要是对html进行解析):


使用lxml的xpath进行解析



IPAddresss.py(通过读取纯真qqwry.dat,对ip地址进行定位),读取的方式可以参考:http://ju.outofmemory.cn/entry/85998;https://linuxtoy.org/archives/python-ip.html


最后看一下validator.py,由于使用的是python2.7,所以要使用协程采用了gevent。


具体代码,请点击最后的阅读原文了解,



最后咱们看一下运行效果: 切换到工程目录下,cmd中执行python IPProxys.py:


python开源IP代理池--IPProxys

这个时候咱们在浏览器中输入请求,就会返回响应的结果:


python开源IP代理池--IPProxys

执行流程是每隔半小时检测一下数据库中ip地址的有效性,删除无效的代理ip。如果ip地址数量少于一个数值,爬虫将会启动,进行新一轮的爬取。当然检测时间和数据量都可以在config.py中配置。



整个项目的代码很简单,大家如果想深入了解的话,就详细的看一下我的这个开源项目IPProxys代码,代码写的有点粗糙,日后再继续优化。


最新资讯

推荐阅读

  1. 08

    2019-05

    网站限制IP访问怎么办

    网站限制IP访问怎么办?有一部分的网站是因为要遏制数据爬取和非法的网络攻击行为,保障正常用户的访问速度和查询效果,所以被查询的网站的系统增加了网络安全设备,强化了安全防护极

  2. 03

    2019-06

    http代理服务器有什么作用

    什么是http代理,www对于每个经常上网的人都再熟悉不过,www连接请求就是采用http协议。代理服务器好比网络信息的中转站,比如我们平时访问网站获取信息,下载数据,都会应用到http代理服务

  3. 23

    2019-05

    独立IP与共享IP有哪些区别

    做网站选择独立IP还是共享IP,相信很多站长都在此纠结过,自己不使用服务器的时候从来没有关心过独立IP和共享IP的究竟有什么具体的差别。但当自己真正用到的时候,才发现:同样都是 IP,

  4. 15

    2019-05

    反向代理服务器是什么

    我们常会看到“反向代理服务器​”这个名词,例如常看到文章上说 nginx 是一个反向代理服务器、varnish 是一个反向代理服务器。反向代理服务器是什么?下面就了解下这个概念。含义 “反向

  5. 13

    2019-05

    爬虫如何使用代理防封IP

    爬虫如何使用代理防封IP?在我们使用爬虫进行数据爬取的时候,爬着爬着就经常会遇到这种情况出现“HTTP Error403: Forbidden ”的提示,这是啥意思呢?其实他是一种http状态码,表示你在请求一

  6. 24

    2019-06

    动态IP地址是什么

    动态IP地址是什么?动态ip地址(Dynamic IP)指的是在需要的时候才进行动态ip地址分配的方式。动态ip地址和静态动态ip地址是对应的。。所谓动态就是指当你每一次上网时,电信会随机分配一个动

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961