注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册

首页 > 新闻资讯 > Python爬虫遇到403,代理IP来解决

Python爬虫遇到403,代理IP来解决

来源:互联网 作者:admin 时间:2019-04-10 16:44:42

Python爬虫遇到403,代理IP来解决!当我们进行爬虫工作的时候,经常会碰上一些难题,比如 407 authentication required ,这是授权问题;HTTP Error 403: Forbidden,这可能是被反爬虫机制识破了,被目标网站拒绝请求。所以403 Forbidden错误应当如何处理呢?可能这也是你们常常会碰到的问题。怎么做才不会被反爬虫识别呢?


Python爬虫遇到403,代理IP来解决

一、利用高匿名代理IP


代理ip按照匿名性的级别划分为透明代理、普匿代理、高匿代理。透明代理会泄露本机IP,普匿代理会泄露使用了代理ip,这两种会暴露使用了代理ip,特别轻松就被识破了,像IP代理精灵这种高匿名ip代理就不会被泄露。


二、尽可能使用干净的代理IP


要是有许多用户使用一样的ip同时访问同一网页,也会非常容易被破解的,当这些ip浏览过于频繁或是浏览测试触及了当前网页的阈值时,ip就会受限。在这种情况下,就要使用高匿名自动切换的IP代理精灵所获得的ip。


三、伪装成浏览器


除此之外,代码里没有设置User-Agent也会出现这类错误的。对于一些 header 尤其要注意,Server 端会针对这些 header 做检查。User-Agent 有些 Server 或 Proxy 会检查该值,用于判断是否是浏览器发起的 Request


Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该如何解析。


这时可以通过修改http包中的header来实现,代码片段如下:


import urllib2headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}request = urllib2.Request( url = 'http://********', headers = headers)print urllib2.urlopen(request).read()


最新资讯

推荐阅读

  1. 28

    2019-05

    代理服务器的主要优点有哪些

    对于非计算机专业的人来说,服务器,代理服务器这些专业名词浑然不知是怎么回事。大部分上网的人只会关注网络是否通畅,有没有掉线等。那么今天小编就给大家带来一些专业知识,什么是

  2. 11

    2019-09

    为什么代理ip软件受电商公司欢迎?

    为什么代理ip软件受电商公司欢迎?从互联网经济发展历程来看,其实在数十年之前我们眼中能看到的电商平台,除了淘宝别无他有。但是如今人们开始发现越来越多的商机,很多这种商机都是从

  3. 03

    2019-01

    如何隐藏自己的IP地址?最好用的隐藏IP地址方法

    每个人都有一些不想让别人知道的事情,但是互联网却会记住我们的一些上网痕迹,特别是记住了我们的IP地址,这该怎么办呢?如何隐藏自己的IP地址?

  4. 23

    2019-06

    怎么样可以更换IP地址

    IP地址怎么改成不一样的,同IP使用是会冲突的,尤其是局域网的地方。那么怎么样可以更换IP地址呢?使用手动更改IP地址,还是说使用IP代理精灵软件呢?日常生活中,我们上网可能不想使用

  5. 17

    2019-04

    换IP软件怎么用更划算

    换IP软件在当下网站推广品牌营销领域之内,作用也是与日俱增。伴随着需求的增加,市场上此类软件随之增多,当然它们的收费情况也各不相同。那么我们换IP软件怎么用更划算呢?如何花最

  6. 09

    2019-05

    代理ip类型有哪些?怎样选择爬虫所需的代理ip?

    在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。如果你一直用同一个代理IP爬取这个网页