注意: IP精灵代理仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

您好,请登录 没有账号?

首页 > 新闻资讯 > python爬虫使用代理ip或请求头的问题

python爬虫使用代理ip或请求头的问题

来源:IP代理精灵 作者:admin 时间:2019-04-26 14:56:53

python爬虫使用代理ip或请求头的问题,接下来我们一起来看看!


在request库中使用代理ip实例如下

headers = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0',
    'Connection':
    'keep-alive',
    'Cookie':
    'session-id=130-1833310-5969908; session-id-time=2082787201l;',
    'referer':
    'https://www.amazon.com/s/ref=nb_sb_noss?field-keywords=%E7%94%B5%E8%84%91&ie=UTF8&language=zh_CN&url=search-alias%3Daps'
}

# 设置代理ip
proxies = {
    'http': 'http://110.52.235.150:9999',
    'https': 'https://58.137.62.133:80'
}
list_html = requests.get(
    'https://www.amazon.com/s/ref=nb_sb_noss?field-keywords=' + keywords +
    '&ie=UTF8&language=zh_CN&url=search-alias%3Daps',
    timeout=timeout,
    headers=headers,
    proxies=proxies,
)

一、 Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接。')))


这种情况是爬取目标对本机进行反爬导致, 目前暂时考虑两种:


ip封锁导致:


解决的关键在于cookie携带还有ip更替, (cookie携带下, 对ip的封锁频率会降低)


请求头referer属性:


部分页面向下访问时会携带referer记录从哪个页面跳转, 有些反爬针对referer进行检测, 如果没有携带或者携带错误会大大增加封锁率


请求头用户代理:


二、Cannot connect to proxy.', NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x00000166942B8D30>: Failed to establish a new connection: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。


这种情况是由于使用的代理ip失效而无法再连接的问题, 可以使用cmd安装tcping命令对ip + 端口进行有效性检查


三、'Connection to 121.61.3.9 timed out. (connect timeout=10)'))


这种情况是由于使用的代理ip连接失效或者连接过于久, 使得超过了程序设定的时间, 可以不设置request的timeout属性以达到最大时间看看是否代理ip失效问题。

最新资讯

推荐阅读

  1. 19

    2019-09

    代理IP的用途和选择

    代理IP的用途和选择。互联网时代我们的生活和工作都离不开网络,我们在上网的时候,有时候自己的ip不够用。例如在有些场合,我们需要注册多个账号,这个时候,一个ip肯定是不够用的,

  2. 26

    2019-04

    使用了代理IP依然受到限制怎么办?

    网络爬虫在如今的互联网领域有着特别的意义,比如我们耳熟能详的大数据,它的发展就离不开网络爬虫。然而网络爬虫也是有天敌的,那就是目标网站的反爬虫策略,爬虫在工作过程中要时刻

  3. 14

    2019-05

    如何使用动态拨号vps通过爬虫抓取贴吧数据

    有时需要批量获取数据,如果要获取的网页非常多,一页一页的翻是不是太累了,有没有简单的方法?下面小编教教大家如何使用动态拨号vps通过爬虫抓取贴吧数据。想要批量获取数据,可以利

  4. 14

    2019-06

    http代理和sock5代理有什么区别

    http代理和sock5代理有什么区别?代理服务器英文全称是Proxy Server,其功能就是代理网络用户去取得网络信息。形象的说:它是网络信息的中转站。在一般情况下,我们使用网络浏览器直接去连接

  5. 28

    2019-06

    怎么挑选到称心如意的HTTP代理IP?

    随着使用HTTP代理IP的用户越来越多,互联网中各种各样的代理IP供应商也层出不穷。那要怎么挑选到称心如意的HTTP代理IP?对用户而言,要想挑选到称心如意的商品,不仅要慎重,还要懂得很多

  6. 01

    2019-03

    在多线程中怎么调用动态代理IP

    一个简单的爬虫是非常容易编写的,只要熟悉基本的一些结构就行,但是要爬取大量的数据时,简单的爬虫根本不顶用,需要使用多线程或者多进程等。使用多线程虽然是可以提高爬虫的效率,