注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > Python爬虫遇到403,代理IP来解决

Python爬虫遇到403,代理IP来解决

来源:互联网 作者:admin 时间:2019-04-10 16:44:42

Python爬虫遇到403,代理IP来解决!当我们进行爬虫工作的时候,经常会碰上一些难题,比如 407 authentication required ,这是授权问题;HTTP Error 403: Forbidden,这可能是被反爬虫机制识破了,被目标网站拒绝请求。所以403 Forbidden错误应当如何处理呢?可能这也是你们常常会碰到的问题。怎么做才不会被反爬虫识别呢?


Python爬虫遇到403,代理IP来解决

一、利用高匿名代理IP


代理ip按照匿名性的级别划分为透明代理、普匿代理、高匿代理。透明代理会泄露本机IP,普匿代理会泄露使用了代理ip,这两种会暴露使用了代理ip,特别轻松就被识破了,像IP代理精灵这种高匿名ip代理就不会被泄露。


二、尽可能使用干净的代理IP


要是有许多用户使用一样的ip同时访问同一网页,也会非常容易被破解的,当这些ip浏览过于频繁或是浏览测试触及了当前网页的阈值时,ip就会受限。在这种情况下,就要使用高匿名自动切换的IP代理精灵所获得的ip。


三、伪装成浏览器


除此之外,代码里没有设置User-Agent也会出现这类错误的。对于一些 header 尤其要注意,Server 端会针对这些 header 做检查。User-Agent 有些 Server 或 Proxy 会检查该值,用于判断是否是浏览器发起的 Request


Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该如何解析。


这时可以通过修改http包中的header来实现,代码片段如下:


import urllib2headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}request = urllib2.Request( url = 'http://********', headers = headers)print urllib2.urlopen(request).read()


最新资讯

推荐阅读

  1. 18

    2019-01

    爬虫可以从哪里获得海量IP资源

    使用过网络爬虫来爬取数据的人都知道,爬虫在爬取网站信息时,是真的需要海量IP资源,看项目的需求,有些一天可能要用到上百万的IP,那么这些IP资源如何来的?爬虫可以从哪里获得海量IP

  2. 06

    2019-05

    路由器动态ip获取不到如何处理

    路由器设置动态IP上网时,一直获取不到动态IP怎么办?路由器中设置动态IP上网后,路由器中一直显示正在获取动态IP,但就是获取不到动态IP地址信息。出现这样的情况,原因是多种多样的,

  3. 25

    2020-03

    如何使用动态ip爬取豆瓣电影数据?

    如何使用动态ip爬取豆瓣电影数据?学爬虫对一个电影爱好者来说还是挺有用的,如果你常常闹片荒,豆瓣top榜单也拯救不了你,那么就自己动手吧。

  4. 14

    2019-02

    建立一个ip池的步骤和思路

    在抓取网页信息时,尤其是大量抓取时,某些网站可能会有一些反爬虫的手段。毕竟谁也不想大量的爬虫在自己家横行吧,而且这对网站的运营也是有影响的,甚至会有竞争对手专门收集我们的

  5. 16

    2019-07

    代理工程师带你了解代理IP那些事

    代理IP本质就是隐藏自身IP地址,使用新的IP去代替访问操作。下面代理工程师带你了解代理IP那些事。1、代理类型 代理类型一共能分为四种。透明代理,匿名代理,高匿代理,还有混淆代理。

  6. 05

    2019-06

    IP代理知识:python爬虫HTTPError异常代码分析

    我们学习Python的过程中总是遇到很多难题,最常见的比如IP限制,我们学会通过使用动态拨号vps来解决,其他情况下也会存在很多异常或者麻烦,需要大家耐心学习,今天IP代理精灵就为大家讲