注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > Python爬虫遇到403,代理IP来解决

Python爬虫遇到403,代理IP来解决

来源:互联网 作者:admin 时间:2019-04-10 16:44:42

Python爬虫遇到403,代理IP来解决!当我们进行爬虫工作的时候,经常会碰上一些难题,比如 407 authentication required ,这是授权问题;HTTP Error 403: Forbidden,这可能是被反爬虫机制识破了,被目标网站拒绝请求。所以403 Forbidden错误应当如何处理呢?可能这也是你们常常会碰到的问题。怎么做才不会被反爬虫识别呢?


Python爬虫遇到403,代理IP来解决

一、利用高匿名代理IP


代理ip按照匿名性的级别划分为透明代理、普匿代理、高匿代理。透明代理会泄露本机IP,普匿代理会泄露使用了代理ip,这两种会暴露使用了代理ip,特别轻松就被识破了,像IP代理精灵这种高匿名ip代理就不会被泄露。


二、尽可能使用干净的代理IP


要是有许多用户使用一样的ip同时访问同一网页,也会非常容易被破解的,当这些ip浏览过于频繁或是浏览测试触及了当前网页的阈值时,ip就会受限。在这种情况下,就要使用高匿名自动切换的IP代理精灵所获得的ip。


三、伪装成浏览器


除此之外,代码里没有设置User-Agent也会出现这类错误的。对于一些 header 尤其要注意,Server 端会针对这些 header 做检查。User-Agent 有些 Server 或 Proxy 会检查该值,用于判断是否是浏览器发起的 Request


Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该如何解析。


这时可以通过修改http包中的header来实现,代码片段如下:


import urllib2headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}request = urllib2.Request( url = 'http://********', headers = headers)print urllib2.urlopen(request).read()


最新资讯

推荐阅读

  1. 28

    2019-11

    使用代理IP后可以实现指定host吗?

    使用代理IP后可以实现指定host吗?当我们在浏览器输入一个域名访问网站时,本机设置的DNS服务器会先将域名解析,若本机网络中没有设置DNS,则是由路由器的DNS服务器解析。

  2. 17

    2019-07

    网关与代理服务器的异同

    网关与代理服务器的异同什么呢?代理服务器和网关都会把网络内部的数据发送到因特网上。如果把网关比作一扇通向因特网的门,代理服务器就是一堵墙,能够避免暴露网络内部的一些重要信

  3. 18

    2019-09

    IP代理软件助力网站SEO优化

    IP代理软件助力网站SEO优化。在互联网快速发展下,网站优化竞争也越来越大。每一个经营网站的人员应该都有这样的体会,这几年的白帽SEO越来越难做了,伴随搜索引擎技术的发展,要想通过

  4. 11

    2019-11

    代理ip在抓取抓取数据时对Python抓取工具有什么作用?

    代理ip在抓取抓取数据时对Python抓取工具有什么作用?几年前,Python在中国只是一种小众语言,但从2011年至今,Python的百度搜索索引增长了10倍。 流行程度几乎与Java相当,并且有很大的追赶性。

  5. 01

    2019-11

    怎么知道用户有没有用代理ip?

    怎么知道用户有没有用代理ip?有时候用代理ip之后,被对方发现了,对方是怎么发现用户使用了代理ip呢?

  6. 28

    2019-04

    如何使用私密代理ip避免信息泄露

    互联网正在朝着大数据方向飞速发展,每个人上网的平台也不仅仅局限于电脑等固定客户端,越来越多的移动端电子产品走进大家的生活,虽然这些互联网产品的发展很大程度上的丰富了大家的