注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > Python制作爬虫请求头的设置方法

Python制作爬虫请求头的设置方法

来源: 作者:admin 时间:2019-03-07 16:58:01

爬虫在爬取网站数据时,由于网站设置了防爬虫的措施,就会被限制,那么这时就要根据实际情况设置请求头和代理IP,本文就几种爬虫技术设置请求的方法做个总结。


Python制作爬虫请求头的设置方法

一、requests设置请求头:

import requests

url="http://www.targetweb.com"

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Referer':'http://www.baidu.com/',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}

res=requests.get(url,headers=headers)

#图片下载时要用到字节流,请求方式如下

#res=requests.get(url,stream=True,headers)


二、Selenium+Chrome请求头设置:

from selenium import webdriver

options = webdriver.ChromeOptions()

options.add_argument('lang=zh_CN.UTF-8')# 设置中文

options.add_argument('user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400"')# 设置头部

browser = webdriver.Chrome(chrome_options=options)

url="http://www.targetweb.com"

browser.get(url)

browser.quit()


三、selenium+phantomjs请求头设置:

from selenium import webdriver

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

des_cap = dict(DesiredCapabilities.PHANTOMJS)

des_cap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400")

browser = webdriver.PhantomJS(desired_capabilities=des_cap)

url="http://www.targetweb.com"

browser.get(url)

browser.quit()


四、爬虫框架scrapy设置请求头:

在settings.py文件中添加如下:

DEFAULT_REQUEST_HEADERS = {

'accept': 'image/webp,*/*;q=0.8',

'accept-language': 'zh-CN,zh;q=0.8',

'referer': 'https://www.baidu.com/',

'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400',}


五、Python异步Aiohttp请求头设置:

import aiohttp

url="http://www.targetweb.com"

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Referer':'http://www.baidu.com/',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}

asyncwithaiohttp.ClientSession(headers=headers)assession:

asyncwithsession.get(url)asresp:

print(resp.status)

print(awaitresp.text())


六、使用IP代理精灵

IP 代理精灵拥有全国各地省市数万条ADSL拨号换IP,每天都能产生百万级不重复IP段,真实且唯一,自动快速切换IP并支持多线段使用,所以IP资源均来自家庭宽带,绿色纯净,不限制下载速度并发接连数,支持各种访问方式,长时间有效不间断,保证爬虫在爬取数据时不会被限制!


以上就是五种设置请求开头的方法,希望可以帮到大家!


最新资讯

推荐阅读

  1. 19

    2019-10

    好用的代理ip软件哪家最好?

    好用的代理ip软件哪家最好?想使用代理IP的话该去哪里找呢?不要急往下看,可以找精灵代理ip,那么精灵代理ip有什么好的呢?

  2. 26

    2018-11

    如何实现大量爬取数据?爬取大量数据的方法

    如何实现大量爬取数据?对于爬虫抓取数据,大家对反爬机制都有一定的了解,比如IP被封,验证码限制等等,少量的抓取数据这些问题都还好解决,但如果想大量抓取数据,遇到的问题成倍...

  3. 22

    2019-11

    如何如何快速构建ip代理池?

    如何如何快速构建ip代理池?代理池主要由5部分组成:ProxyGeter(代理获取模块)、RedisClient(代理管理模块,负责存储、删除、取出等基本操作)、Texter(代理可用性测试模块)和Web_Api(用户获取模块)。

  4. 26

    2019-09

    ip代理软件让你放心安全上网

    ip代理软件让你放心安全上网 。如今,在互联网时代下,我们无论在生活上还是工作上都离不开网络。大家都知道,每一台连接了互联网的电脑都有一个唯一的IP地址,就像我们的身份证一样。

  5. 01

    2019-06

    手机动态IP地址切换软件

    现在手机的使用比较广,不管是手机工作还是手机娱乐,也是可能需要更换IP地址的,那么手机动态IP地址切换软件哪款好用呢?其实目前有很多工具都能够满足手机ip的修改需求,只不过每个人

  6. 16

    2019-04

    使用HTTP代理服务器的安全性简评

    由于各种原因,在国内上网,免不了要和HTTP代理服务器打交道。HTTP代理服务器分加密代理服务器​和普通代理服务器。如果我们在自己的电脑上运行了某些软件之后就能访问之前不能访问的网