注意: IP精灵代理仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

您好,请登录 没有账号?

首页 > 新闻资讯 > 爬虫使用代理ip和随机ua突破反爬机制

爬虫使用代理ip和随机ua突破反爬机制

来源:IP精灵 作者:admin 时间:2019-10-09 10:23:28

  爬虫使用代理ip和随机ua突破反爬机制。在爬取网站的时候,经常会遇到一个问题,就是很多网站上都部署了反爬虫机制,当服务器检测到一段时间内同一个IP持续密集的访问网站,则将其判定为爬虫程序,在一段时间内不允许该ip 地址访问服务器。

爬虫使用代理ip和随机ua突破反爬机制

  如果平时没什么事儿的话,可以写个延迟函数,每爬一次随机歇个几秒钟,这样可以很有效的降低访问密度,从而避开反爬机制。但是,这样的话太浪费时间了,几万条数据可能要爬一整天。有时候我们需要更加有效率的爬取数据,所以需要使用代理 IP 和随机 UA(User-Agent)。说白了就是伪装爬虫,假装不同的人使用不同的浏览器在访问网站。

  使用代理 IP

  之前我了解到的使用代理 IP 的方法,一般都是提前从一些免费的代理网站上爬取免费代理,存在本地或者数据库中,使用的时候再进行读取。

  但是这样做有个小问题就是,免费的代理 IP 存活时间都特别短暂,从几十秒到几十分钟不等,我之前整过几次,每次爬完 IP 之后,到用的时候,已经有一半左右的IP已经失效了。感觉不是特别好用,就没在搞了。

  后来看到这位大佬的思路之后,我才重新发现了使用代理 IP 的强大之处。它在爬虫运行的同时,在线获取代理 IP。每次只获取一页,存于数组中,随机使用。当大部分的 IP 失效之后(记录访问失败的次数,当超过一定阈值时,则视为此页代理 IP 失效),然后重新获取一页代理 IP,如此,可保证每次使用的都是最新的 IP,而且不需要额外的空间和文件来存放代理 IP。

  def get_proxy(page):

  ''' 功能:获取 快代理 网站上的最新免费代理IP 参数: page 页数

  返回:存有代理 IP 的列表 proxyList

  '''

  # 存放获取到的代理 IP 信息

  proxyList = [] # 访问 快代理 网站,获取第 page 页的网页信息

  headers = { "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"

  }

  request = urllib.request.Request("https://www.kuaidaili.com/free/inha/"+str(page), headers=headers)

  html = urllib.request.urlopen(request).read()

  # 解析网页信息,从中提取代理 ip 的数据

  content = etree.HTML(html)

  ip = content.xpath('//td[@data-title="IP"]/text()')

  port = content.xpath('//td[@data-title="PORT"]/text()') # 将代理 ip 信息存入 proxyList 列表

  for i in ip: for p in port:

  proxyList.append(i+':'+p) return proxyList

  使用随机 UA

  UA,即 User-Agent ,使用它可以将我们的爬虫伪装成浏览器,让对方以为是真人在使用浏览器访问,从而骗过目标网站的反爬机制。但是使用固定的 UA 去爬也是会有问题的,你想嘛,假如你发现最近几个小时内来访问的几万个用户,用的都是同一个浏览器,你还会认为对面是真人吗?不封它封谁!

  所以,为了让我们的爬虫更像真人在使用,我们不仅要为它设置 UA,还要使用随机 UA(让对方服务器开心的以为有好多的用户在访问呢)。

  这是 UA 列表,截取了部分,这个在网上随便一找就能找到好多。

  USER_AGENTS = [

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60',

  'Opera/8.0 (Windows NT 5.1; U; en)',

  'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50',

  'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50',

  'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0',

  'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36',

  'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

  'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER',

  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)',

  'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0',

  'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36'

  ]

  使用的时候,直接使用随机函数 random.choice() 来从列表中选择选择一个。

  使用方法可以参考以下代码:

  user_agent = random.choice(USER_AGENTS)proxy = random.choice(proxyList)url = 'https://blog.csdn.net/wenxuhonghe/article/details/85036674' headers = { "Connection": "keep-alive", "Cache-Control": "max-age=0", "Upgrade-Insecure-Requests": "1", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "Accept-Language": "zh-CN,zh;q=0.9", "Cookie": ""

  }

  try: # 构建一个Handler处理器对象,参数是一个字典类型,包括代理类型和代理服务器IP+PROT

  httpproxy_handler = urllib.request.ProxyHandler({"http": proxy}) opener = urllib.request.build_opener(httpproxy_handler)

  urllib.request.install_opener(opener) request = urllib.request.Request(url,headers=headers)

  request.add_header("User-Agent", user_agent) response = urllib.request.urlopen(request) html = response.read()

  # 解析目标页面,提取相关信息

  parse_data(html)

  time.sleep(1)

  except Exception as result:

  print ("错误信息:%s"%(result))

  写在后面的话

  上面介绍了如何使用代理 ip 和 随机 ua 来避开网站的反爬虫机制,实现高效率的数据爬取。推荐阅读:代理IP的直接转发与隧道转发是什么

  本文中使用的方法亲测可用,但是代码并非全部源码,不保证代码可以直接复制粘贴使用,建议大家理解原理之后,根据自己的爬虫项目需要进行相应的调整。


最新资讯

推荐阅读

  1. 09

    2019-09

    让代理ip​帮助打造品牌和造势!

    让代理ip​帮助打造品牌和造势!在大数据时代,IP已经是重要的存在,而移动互联网时代,IP是一种资产,微商品牌打造好IP,品牌溢价能力更强。人格化的力量是最容易产生信任,促进成交转化

  2. 17

    2019-07

    Squid代理服务器搭建亿级爬虫IP代理池

    做爬虫抓取时,我们经常会碰到网站针对IP地址封锁的反爬虫策略。但只要有大量可用的IP资源,问题自然迎刃而解。以前尝试过自己抓取网络上免费代理IP来搭建代理池,可免费IP质量参差不齐

  3. 06

    2019-08

    怎样鉴别用户有没有使用代理ip

    怎样鉴别用户有没有使用代理ip?有时候用代理ip之后,被对方发现了,对方是怎么发现用户使用了代理ip呢?Keep-alive报文:如果带有Proxy-Connection的Keep-alive报文,号位疑问该IP是代理IP。

  4. 24

    2019-04

    速度快的代理IP选什么好

    一般选择使用代理IP的,无非是处于这么几个原因,一是自己的IP被网站限制或者封锁了,无法继续访问网站;二是自己的网络速度慢,像投票,抢购这样的业务对网速有要求;三是IP无法访问一些

  5. 24

    2019-07

    静态IP代理有什么好处?如何使用静态IP代理?

    静态IP代理有什么好处?如何使用静态IP代理?静态IP地址其实就是一个固定的IP地址,是长期分配给一台计算机或者网络设备使用的IP地址。一般是特殊的服务器或者使用专线上网的计算机才有

  6. 23

    2018-11

    为什么代理服务器不能上网?使用代理服务器正确设置方法

    关于代理服务器,许多人在使用过程中都有一些疑问,比如,为什么代理服务器不能上网?是使用的代理服务器有问题吗?还是说哪里设置有问题呢?这时候应该看看局域网的代理服务器设置。