注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册

首页 > 新闻资讯 > 如何如何快速构建ip代理池?

如何如何快速构建ip代理池?

来源:IP代理精灵 作者:admin 时间:2019-11-22 15:07:57

如何如何快速构建ip代理池?代理池主要由5部分组成:ProxyGeter(代理获取模块)、RedisClient(代理管理模块,负责存储、删除、取出等基本操作)、Texter(代理可用性测试模块)和Web_Api(用户获取模块)。

如何如何快速构建ip代理池

ProxyGeter

从几个代理网站爬取最新的代理,并把代理存储到redis数据库中

RedisClient

主要实现ip的删、减、增等基本操作,采用reids的几方面原因如下:

redis的hash数据结构可以为IP的有效性(根据可用性分为0-100)进行评分;

redis提供的key-value更方便地储存IP;

对于IP的存储、提取、删除、查询数量等功能会更加地快捷;

Texter

模块的主要目的是检测ip的可用性。提前设置好需要检测的网站站点,然后随机取出数据库中的代理,用获取到的ip来访问目标站点:

若访问无效,首先降低ip的分数等级(减10),其次做判断:若该ip的分数等级低于10分直接从reids数据库中删除;

若访问有效,首先增加ip的分数等级(加10),其次更新reids中该ip的分数等级;

Web_Api

为了让用户获取可用性ip更加方便一点,这里利用flask框架做了一个API,这个接口连接着redis数据库;

当打开这个api开关时,直接从redis数据库中随机获取一个分数等级高的ip,用户可以通过访问这个接口(提供的url)就可以获取相应的IP代理。

这四个模块是彼此独立的(例如,当检测一个ip不可用时,需要调用RedisClient来从数据库中删除这个ip),因此需要引入一个新的模块:Schedule来进行协调。

代理池的运作关系如下图:

代码实现部分

在构建ip代理池过程中,如果使用redis数据库和flask框架,则需要提前完成相关配置。

部分代码:

class Tester(object): def __init__(self): self.redis =Redisclient() async def text_single_proxy(self,proxy): ''' 测试单个代理的可用性; :param proxy: 单个代理; :return: ''' conn = aiohttp.TCPConnector(verify_ssl=False) async with aiohttp.ClientSession(connector=conn) as session: try: if isinstance(proxy,bytes): proxy =proxy.decode('utf-8') real_proxy = 'http://'+proxy async with session.get(TEXT_URL,proxy = real_proxy,timeout = 15) as response: if response.status in VAILD_SATTUS_CODES: self.redis.max(proxy) print('') print('代理可用',proxy) else: self.redis.decrease_proxy(proxy) print('请求响应码不合法',proxy) except (TimeoutError,AttributeError): self.redis.decrease_proxy(proxy) print('代理请求失败') def run(self): ''' 调用主函数; :return: ''' print('测试器开始运行') try: proxies = self.redis.get_all_prpxy() loop =asyncio.get_event_loop() #批量测试 for i in range(0,len(proxies),BATCH_TEXT_SIZE): test_proxies = proxies[i:i+BATCH_TEXT_SIZE] tasks = [self.text_single_proxy(proxy) for proxy in test_proxies] loop.run_until_complete(asyncio.wait(tasks)) time.sleep(5) except Exception as e: print('测试器发生错误',e.args)

ip代理池实现效果

获取、测试代理:

Flask_api接口获取代理:推荐阅读:如何为你的爬虫实现动态ip代理?

以上是ip代理池的整个搭建过程,但是与映射于一句话 最便宜的也就是最贵的一样,源于免费,会造成大量用户使用,并且ip的质量堪忧,远不如付费ip。

最新资讯

推荐阅读

  1. 15

    2020-05

    代理ip软件是什么?有哪些线路类型?

    代理ip软件是什么?有哪些线路类型?什么是代理ip软件?顾名思义,是能成功更换电脑或手机设备的ip软件,至于其中的原理,技术,作为用户的我们,无需了解,也没有必要了解,如今的ip代理软

  2. 09

    2019-05

    关于HTTP代理IP的误解

    什么是HTTP代理IP​?通俗的来说,就是换IP。据小编了解,很多人对HTTP代理IP都存在着一些误解,今天小编就来带大家解开这些误会。大部分人都知晓,在使用网络爬虫多次爬取同一网站时,经常

  3. 21

    2019-08

    http代理服务器是什么

    http代理服务器是什么?HTTP代理是代理服务器的一种,www对于每一个上网的人都再熟悉不过了,www连接请求就是采用的http协议,所以我们在浏览网页、下载数据(也可采用ftp协议)时,就是用htt

  4. 01

    2019-10

    网络加速器能决解网速吗?

    网络加速器能决解网速吗?网速慢,频繁掉线,延迟高等等,这些都严重影响游戏体验,这给网络加速器提供的一个绝好的发展平台,许多工作室与游戏爱好者都逐渐开始使用加速器,这网络加

  5. 08

    2021-07

    关于http代理IP的有效期和匿名度说明

    关于http代理IP的有效期和匿名度说明!http代理IP的使用已经非常普遍,很多网络工作者都需要使用到http代理IP,但还有很多人不太了解http代理IP,在某些概念方面容易混淆不清,我们一起来看看

  6. 15

    2020-06

    ​HTTP代理服务器操作指南

    ​HTTP代理服务器操作指南!相信大伙儿对www十分了解,一般浏览网址想要根据它,www也叫万维网,是无数互联网网站和网页页面的结合,是多媒体系统的结合,是由超链接联接而成的。可是有很