注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > Python爬虫遇到403,代理IP来解决

Python爬虫遇到403,代理IP来解决

来源:互联网 作者:admin 时间:2019-04-10 16:44:42

Python爬虫遇到403,代理IP来解决!当我们进行爬虫工作的时候,经常会碰上一些难题,比如 407 authentication required ,这是授权问题;HTTP Error 403: Forbidden,这可能是被反爬虫机制识破了,被目标网站拒绝请求。所以403 Forbidden错误应当如何处理呢?可能这也是你们常常会碰到的问题。怎么做才不会被反爬虫识别呢?


Python爬虫遇到403,代理IP来解决

一、利用高匿名代理IP


代理ip按照匿名性的级别划分为透明代理、普匿代理、高匿代理。透明代理会泄露本机IP,普匿代理会泄露使用了代理ip,这两种会暴露使用了代理ip,特别轻松就被识破了,像IP代理精灵这种高匿名ip代理就不会被泄露。


二、尽可能使用干净的代理IP


要是有许多用户使用一样的ip同时访问同一网页,也会非常容易被破解的,当这些ip浏览过于频繁或是浏览测试触及了当前网页的阈值时,ip就会受限。在这种情况下,就要使用高匿名自动切换的IP代理精灵所获得的ip。


三、伪装成浏览器


除此之外,代码里没有设置User-Agent也会出现这类错误的。对于一些 header 尤其要注意,Server 端会针对这些 header 做检查。User-Agent 有些 Server 或 Proxy 会检查该值,用于判断是否是浏览器发起的 Request


Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该如何解析。


这时可以通过修改http包中的header来实现,代码片段如下:


import urllib2headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}request = urllib2.Request( url = 'http://********', headers = headers)print urllib2.urlopen(request).read()


最新资讯

推荐阅读

  1. 08

    2019-11

    爬虫代理和隧道代理有什么区别?

    爬虫代理和隧道代理有什么区别?HTTP代理指的是使用代理服务器使网络用户访问外部网站。代理服务器是介于浏览器和Web服务器之间的一台服务器,是建立在超文本传输协议上的网络浏览方式,

  2. 13

    2019-05

    代理服务器中的HTTP代理与SOCKS代理有什么区别

    什么是HTTP代理?www对于每一个上网的人都再熟悉不过了,www连接请求就是采用的http协议,所以我们在浏览网页,下载数据(也可采用ftp协议)是就是用http代理。它通常绑定在代理服务器的80、3

  3. 12

    2019-07

    如何选择高质量的http/https/sock5多协议代理ip

    随着大数据行业的飞速发展,用户对代理IP的需求量越来越大,代理IP服务供应商也越来越多,这意味着有更多的选择的同时,也意味着选择一家高质量的代理ip更加不容易。那么,如何选择高质

  4. 12

    2019-11

    HTTP代理IP对4S店网络发展有什么作用?

    HTTP代理IP对4S店网络发展有什么作用?互联网经济迅速发展,各个行业想要在这个经济背景之下抢占市场,网路模式已经成为必不可少的一种营销手段。4S店更是要这种新模式下迈向行业巅峰。在4

  5. 16

    2019-05

    手机如何使用国内动态IP

    手机如何使用国内动态IP?手机广泛应用后,因为便于携带,使用也方便,手机用户愈来愈多,许多人逐渐用手机工作。可是不换ip特别容易被禁掉,这就要手机也能换ip,所以手机如何使用国内

  6. 19

    2019-05

    断网换IP怎么操作

    断网换IP怎么操作?使用宽带的人可以通过重启路由器更换ip,使用校园网的人可以通过断网后重新连网换ip。下面整理了具体的操作方法,一起来看看吧!1.有线无路由:简单版:拔网线 复杂版