注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > Python制作爬虫请求头的设置方法

Python制作爬虫请求头的设置方法

来源: 作者:admin 时间:2019-03-07 16:58:01

爬虫在爬取网站数据时,由于网站设置了防爬虫的措施,就会被限制,那么这时就要根据实际情况设置请求头和代理IP,本文就几种爬虫技术设置请求的方法做个总结。


Python制作爬虫请求头的设置方法

一、requests设置请求头:

import requests

url="http://www.targetweb.com"

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Referer':'http://www.baidu.com/',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}

res=requests.get(url,headers=headers)

#图片下载时要用到字节流,请求方式如下

#res=requests.get(url,stream=True,headers)


二、Selenium+Chrome请求头设置:

from selenium import webdriver

options = webdriver.ChromeOptions()

options.add_argument('lang=zh_CN.UTF-8')# 设置中文

options.add_argument('user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400"')# 设置头部

browser = webdriver.Chrome(chrome_options=options)

url="http://www.targetweb.com"

browser.get(url)

browser.quit()


三、selenium+phantomjs请求头设置:

from selenium import webdriver

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

des_cap = dict(DesiredCapabilities.PHANTOMJS)

des_cap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400")

browser = webdriver.PhantomJS(desired_capabilities=des_cap)

url="http://www.targetweb.com"

browser.get(url)

browser.quit()


四、爬虫框架scrapy设置请求头:

在settings.py文件中添加如下:

DEFAULT_REQUEST_HEADERS = {

'accept': 'image/webp,*/*;q=0.8',

'accept-language': 'zh-CN,zh;q=0.8',

'referer': 'https://www.baidu.com/',

'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400',}


五、Python异步Aiohttp请求头设置:

import aiohttp

url="http://www.targetweb.com"

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Referer':'http://www.baidu.com/',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}

asyncwithaiohttp.ClientSession(headers=headers)assession:

asyncwithsession.get(url)asresp:

print(resp.status)

print(awaitresp.text())


六、使用IP代理精灵

IP 代理精灵拥有全国各地省市数万条ADSL拨号换IP,每天都能产生百万级不重复IP段,真实且唯一,自动快速切换IP并支持多线段使用,所以IP资源均来自家庭宽带,绿色纯净,不限制下载速度并发接连数,支持各种访问方式,长时间有效不间断,保证爬虫在爬取数据时不会被限制!


以上就是五种设置请求开头的方法,希望可以帮到大家!


最新资讯

推荐阅读

  1. 15

    2019-04

    有关代理IP软件三个基本概念

    爬虫采集​过程中少不了代理IP软件的使用,在使用代理IP软件之前我们需要弄明白一些基本概念。代理(英语:Proxy)也称网络代理,是一种独特的互联网服务,准许1个终端设备(通常为手机客户

  2. 21

    2020-09

    IP被禁言用换IP软件

    很多用户在使用论坛、贴吧或者微博等平台时,可能一不小心就触犯了规则,导致IP被封,无法继续发帖。这种情况,可以通过换IP的方式来解决。

  3. 09

    2019-05

    爬虫采集时如何使用代理IP?有什么需要注意的?

    在互联网营销时代,数据的获取是做出营销策略制定的重要前提。而以代理IP为基础的爬虫技术是现在较为基础和简便的数据获取手段。那么爬虫采集时如何使用代理IP?有什么需要注意的?下

  4. 11

    2019-05

    如何利用代理ip让自媒体涨粉丝

    自媒体是现代经济下的产物,自媒体不仅仅包括企业的一种宣传,个人在自媒体上也可发发表自己的观点,发布一些视频等等。顾名思义,自媒体就是自己掌握的,能让大众所看到的一个媒介平

  5. 08

    2019-11

    IP代理和http代理的区别

    IP代理和http代理的区别!我们都知道,IP代理和http代理都可以更换IP,那么IP代理和http代理有什么区别呢?今天ip代理精灵为大家详细介绍一下。

  6. 18

    2020-08

    为什么电商离不开高匿代理IP

    为什么电商离不开高匿代理IP?电商是电子商务的简称,是一种依靠着电子设备和网络技术进行的商业模式,电子商务包括电子货币交换、供应链管理、电子交易市场、网络营销、在线事务处理、