注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 代理IP协助使用python抓取百度漂流瓶妹纸照片

代理IP协助使用python抓取百度漂流瓶妹纸照片

来源:互联网 作者:admin 时间:2019-04-02 17:25:19

1.分析


首先打开抓包神器 Fiddler ,然后打开漂流瓶首页,加载几页试试,在Fiddler中过滤掉图片数据以及非 http 200 状态码的干扰数据后,发现每一页的数据获取都很有规律,这就给抓取提供了便利。


看参数很容易明白,page_number 就是当前页码,page_size 就是当前页中包含的漂流瓶数量。


访问后得到的是一个json格式的数据,结构大致如下:

代理IP协助使用python抓取百度漂流瓶妹纸照片



2.编码


这里采用的是 python2.7 + urllib2 + demjson 来完成此项工作。urllib2 是python2.7自带的库,demjson 需要自己安装下(一般情况下用python自带的json库就可以完成json解析任务,但是现在好多网站提供的json并不规范,这就让自带json库无能为力了。)


demjson 安装方式 (windows 不需要 sudo)


sudo pip install demjson


或者


sudo esay_install demjson


2.1获得一页内容

代理IP协助使用python抓取百度漂流瓶妹纸照片



2.2根据url保存图片数据

代理IP协助使用python抓取百度漂流瓶妹纸照片

全部代码如下

代理IP协助使用python抓取百度漂流瓶妹纸照片


爬虫总是爬取一个网站信息时,IP地址就很容易被封,那么这时候就要切换IP地址,精灵IP代理海量ip,每天超过一千两百万IP供你选择,代理IP是爬虫的好助手。

最新资讯

推荐阅读

  1. 18

    2019-06

    云服务器能做http代理吗

    云服务器能做http代理吗?只要懂得相应的代码技术,是可以的。想使用云服务器做http代理,首先要在服务商处购买一台云服务器。通常使用代理服务器有以下作用。安全过滤 为了安全,不允许

  2. 26

    2020-08

    代理IP全面说明DNS域名解析

    代理IP全面说明DNS域名解析!互联网+时代,现在大家的工作与生活都与网络紧紧相连。不知道你对网络了解有多少,什么是DNS 域名解析?如果你只是听说过这个名词,而不太清楚它具体是什么操作

  3. 23

    2019-09

    代理ip软件主要换ip地址的方式

    代理ip软件主要换ip地址的方式!很多人对代理ip还不是很熟悉,它的功能如何实现,通过哪些方式去使用抱有疑惑,今天ip代理精灵就来跟大家介绍代理ip软件主要换ip地址的方式。代理ip软件实用

  4. 28

    2019-02

    Python代理IP爬虫的简单使用

    Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段,添加headers和ip代理可以解决很多问

  5. 06

    2020-11

    IP代理软件与电商之间的关系

    IP代理软件与电商之间的关系!数十年之前,我们眼中的电商平台或者说我们生活中习惯的电商平台,除了淘宝之外没有别人,但是现在尤其是近几年,随着互联网的发展,基于互联网技术之上的

  6. 23

    2019-04

    局域网中如何设置代理地址实现上网

    在公司,我们像网吧一样大多是局域网,这样导致能独立上网的计算机寥寥无几。所以我们需要在能上网的计算机中安装代理软件,然后在需要上网的计算机制设置代理地址。那么局域网中如何