注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > Python制作爬虫请求头的设置方法

Python制作爬虫请求头的设置方法

来源: 作者:admin 时间:2019-03-07 16:58:01

爬虫在爬取网站数据时,由于网站设置了防爬虫的措施,就会被限制,那么这时就要根据实际情况设置请求头和代理IP,本文就几种爬虫技术设置请求的方法做个总结。


Python制作爬虫请求头的设置方法

一、requests设置请求头:

import requests

url="http://www.targetweb.com"

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Referer':'http://www.baidu.com/',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}

res=requests.get(url,headers=headers)

#图片下载时要用到字节流,请求方式如下

#res=requests.get(url,stream=True,headers)


二、Selenium+Chrome请求头设置:

from selenium import webdriver

options = webdriver.ChromeOptions()

options.add_argument('lang=zh_CN.UTF-8')# 设置中文

options.add_argument('user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400"')# 设置头部

browser = webdriver.Chrome(chrome_options=options)

url="http://www.targetweb.com"

browser.get(url)

browser.quit()


三、selenium+phantomjs请求头设置:

from selenium import webdriver

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

des_cap = dict(DesiredCapabilities.PHANTOMJS)

des_cap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400")

browser = webdriver.PhantomJS(desired_capabilities=des_cap)

url="http://www.targetweb.com"

browser.get(url)

browser.quit()


四、爬虫框架scrapy设置请求头:

在settings.py文件中添加如下:

DEFAULT_REQUEST_HEADERS = {

'accept': 'image/webp,*/*;q=0.8',

'accept-language': 'zh-CN,zh;q=0.8',

'referer': 'https://www.baidu.com/',

'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400',}


五、Python异步Aiohttp请求头设置:

import aiohttp

url="http://www.targetweb.com"

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Referer':'http://www.baidu.com/',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}

asyncwithaiohttp.ClientSession(headers=headers)assession:

asyncwithsession.get(url)asresp:

print(resp.status)

print(awaitresp.text())


六、使用IP代理精灵

IP 代理精灵拥有全国各地省市数万条ADSL拨号换IP,每天都能产生百万级不重复IP段,真实且唯一,自动快速切换IP并支持多线段使用,所以IP资源均来自家庭宽带,绿色纯净,不限制下载速度并发接连数,支持各种访问方式,长时间有效不间断,保证爬虫在爬取数据时不会被限制!


以上就是五种设置请求开头的方法,希望可以帮到大家!


最新资讯

推荐阅读

  1. 18

    2018-12

    爬虫怎么伪装成用户的有效技巧

    爬虫要想正常的爬取信息,首先要让网站知道这是用户在访问,而不是爬虫,即是说爬虫要伪装成用户,那么爬虫怎么伪装成用户呢?

  2. 30

    2019-12

    获取代理IP的渠道有哪些?

    获取代理IP的渠道有哪些?网络爬虫和国内代理IP在互联网的关系堪比一对好基友,当网络爬虫遇到反爬虫障碍时,使用代理IP可以帮助网络爬虫突破IP地址限制。那么如何获取代理IP呢?

  3. 28

    2019-08

    检测代理IP匿名程度的方法

    从事互联网工作的朋友的基本都知道代理,这个是肯定的,不管是用IP代理精灵,还是直接VPN的通道代理,代理有着不用说大家也知道的重要性。不管是做CPA还是做点击亦或者投票,代理都能帮

  4. 05

    2020-04

    客户端的代理设置

    客户端的代理设置

  5. 12

    2019-03

    做广告推广为什么要换IP?

    我们上网是需要IP地址的,我们也可以通过换IP来做一些其他的事情,比如突破IP限制,一般是用于频繁访问之后,当前IP地址被限制,需要更换其他的IP地址来访问。这个现象,估计很多人都会

  6. 27

    2019-07

    代理服务器常见的几种基本类型

    代理服务器(Proxy Server)是一种重要的服务器安全功能,它的工作主要在开放系统互联(OSI)模型的会话层,从而起到防火墙的作用。代理服务器大多被用来连接INTERNET(国际互联网)和Local Area Net