注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册

首页 > 新闻资讯 > Python制作爬虫代理IP的操作方法

Python制作爬虫代理IP的操作方法

来源:IP代理精灵 作者:admin 时间:2020-02-28 15:35:31

Python制作爬虫代理IP的操作方法!我们在制作爬虫爬取想要的资料时,由于是计算机自动抓取,强度大、速度快,通常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,在这里介绍相关的技巧,以免被封;但在制作爬虫时,还是要适当加入延时代码,以减少对目标网站的影响。

Python制作爬虫代理IP的操作方法

一、requests设置代理:

import requests

proxies = { "http": "http://192.10.1.10:8080", "https": "http://193.121.1.10:9080", }

requests.get("http://targetwebsite.com", proxies=proxies)

二、Selenium+Chrome设置代理:

from selenium import webdriver

PROXY = "192.206.133.227:8080"

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument('--proxy-server={0}'.format(PROXY))

browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get('www.targetwebsize.com')

print(browser.page_source)

brsowser.close()

三、Selenium+Phantomjs设置代理:

# 利用DesiredCapabilities(代理设置)参数值,重新打开一个sessionId.

proxy=webdriver.Proxy()

proxy.proxy_type=ProxyType.MANUAL

proxy.http_proxy='192.25.171.51:8080'

# 将代理设置添加到webdriver.DesiredCapabilities.PHANTOMJS中

proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)

browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)

browser.get('http://www.targetwebsize.com')

print(browser.page_source)

# 还原为系统代理只需将proxy_type重新设置一次

proxy.proxy_type=ProxyType.DIRECT

proxy.add_to_capabilities(webdriver.DesiredCapabilities.PHANTOMJS)

browser.start_session(webdriver.DesiredCapabilities.PHANTOMJS)

四、爬虫框架scrapy设置代理:

在setting.py中添加代理IP

PROXIES = ['http://173.207.95.27:8080',

'http://111.8.100.99:8080',

'http://126.75.99.113:8080',

'http://68.146.165.226:3128']

而后,在middlewares.py文件中,添加下面的代码。

import scrapy from scrapy

import signals

import random

classProxyMiddleware(object):

''' 设置Proxy '''

def__init__(self, ip):

self.ip = ip

@classmethod

deffrom_crawler(cls, crawler):

return cls(ip=crawler.settings.get('PROXIES'))

defprocess_request(self, request, spider):

ip = random.choice(self.ip)

request.meta['proxy'] = ip

最后将我们自定义的类添加到下载器中间件设置中,如下。

DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.ProxyMiddleware': 543,}

五、Python异步Aiohttp设置代理:

proxy="http://192.121.1.10:9080"

asyncwithaiohttp.ClientSession()assession:

asyncwithsession.get("http://python.org",proxy=proxy)asresp:

print(resp.status)

根据以上代理ip的操作方法,就可以爬取你想要的内容了;

最新资讯

推荐阅读

  1. 08

    2021-01

    优质的IP代理软件注重看什么

    优质的IP代理软件注重看什么?如今,换ip软件的出现不仅给很多人带来了便捷,而且还提升工作效率,所以ip代理软件已经成为了很多人工作中不可缺少的伙伴,那么怎样选择最好用的ip转换器呢

  2. 07

    2019-05

    电脑如何修改ip变成别的城市

    IP地址是每个联网设备的IP,根据这个IP可以进行网络数据传输,实现上网功能,有些业务及工作需要,要改变下自己的IP地址,今天本文就来教教大家电脑如何修改ip变成别的城市?用过ip代理精

  3. 26

    2019-07

    如何突破上网的IP被封禁

    如何突破上网的IP被封禁?通过第三方网络来中转发送游戏数据包,国内网络游戏服务器与玩家之间建立一个通道,软件层面解决上网ip被封的问题。不管您使用什么网络,都可以通关我换ip软件

  4. 16

    2019-05

    Python爬虫必须用代理IP吗

    很多人都认为,Python爬虫必须用ip代理,倘若没有了代理ip将寸步难行,但也很多人觉得代理ip不是必需品,能够用爬取工具代替,所以Python爬虫必须用代理IP吗?使用采集工具,有人说。用来抓

  5. 19

    2019-06

    爬虫为什么需要HTTP代理IP

    爬虫为什么需要HTTP代理IP?大数据高速发展时代,爬虫行业日益火爆,从业者如过江之鲫,数不胜数,说到爬虫就不得不提另外一个词:代理IP。爬虫虽然大行其道,但相应的反爬虫也步步紧逼

  6. 14

    2019-05

    代理IP的原理及分类

    在爬取某些网站时,我们经常会设置代理IP来避免爬虫程序被封。我们获取代理 IP 地址方式通常提取国内的知名 IP 代理商的免费代理和拨号VPS。这些代理商一般都会提供透明代理,匿名代理,