注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 代理IP协助使用python抓取百度漂流瓶妹纸照片

代理IP协助使用python抓取百度漂流瓶妹纸照片

来源:互联网 作者:admin 时间:2019-04-02 17:25:19

1.分析


首先打开抓包神器 Fiddler ,然后打开漂流瓶首页,加载几页试试,在Fiddler中过滤掉图片数据以及非 http 200 状态码的干扰数据后,发现每一页的数据获取都很有规律,这就给抓取提供了便利。


看参数很容易明白,page_number 就是当前页码,page_size 就是当前页中包含的漂流瓶数量。


访问后得到的是一个json格式的数据,结构大致如下:

代理IP协助使用python抓取百度漂流瓶妹纸照片



2.编码


这里采用的是 python2.7 + urllib2 + demjson 来完成此项工作。urllib2 是python2.7自带的库,demjson 需要自己安装下(一般情况下用python自带的json库就可以完成json解析任务,但是现在好多网站提供的json并不规范,这就让自带json库无能为力了。)


demjson 安装方式 (windows 不需要 sudo)


sudo pip install demjson


或者


sudo esay_install demjson


2.1获得一页内容

代理IP协助使用python抓取百度漂流瓶妹纸照片



2.2根据url保存图片数据

代理IP协助使用python抓取百度漂流瓶妹纸照片

全部代码如下

代理IP协助使用python抓取百度漂流瓶妹纸照片


爬虫总是爬取一个网站信息时,IP地址就很容易被封,那么这时候就要切换IP地址,精灵IP代理海量ip,每天超过一千两百万IP供你选择,代理IP是爬虫的好助手。

最新资讯

推荐阅读

  1. 15

    2019-11

    旅游行业该怎么依靠互联网发展?

    旅游行业该怎么依靠互联网发展?中国的互联网发展时间并不长,但发展速度无疑是众国家中最快的一个。伴随着大数据时代蓬勃发展,给各行各业带来了不少冲击和全新机遇。对于旅游行业来

  2. 23

    2019-10

    代理ip如何保障爬虫顺利完成任务?

    代理ip如何保障爬虫顺利完成任务?爬虫能顺利按时完成任务,这是每个爬虫工作者都特别希望的事,因为在爬虫工作中,总会遇到一些困难,遇到一些挫折,它们总是不想让我们一帆风顺,不是

  3. 10

    2019-09

    用 Python 模拟登录淘宝的操作步骤

     用 Python 模拟登录淘宝的操作步骤。最近想爬取淘宝的一些商品,但是发现如果要使用搜索等一些功能时基本都需要登录,所以就想出一篇模拟登录淘宝的文章!看了下网上有很多关于模拟登录

  4. 13

    2019-02

    获取高质量代理IP的途径

    很多人都追求高质量的东西,因为越高质量的东西,价值也越高,体验效果也更加好,就连代理IP也不例外。高质量的代理IP能提高我们的工作效率,使用更加省心,不想哪些免费的代理时不时

  5. 30

    2019-10

    什么是代理服务器及IP加速器的应用

    什么是代理服务器及IP加速器的应用!虽然代理ip在某些行业已经被广泛应用,但是还有很多人不了解代理服务器是什么东西,但是IP加速器多少都听说过,这是因为我国的具体国情决定的,简单

  6. 27

    2019-07

    代理服务器常见的几种基本类型

    代理服务器(Proxy Server)是一种重要的服务器安全功能,它的工作主要在开放系统互联(OSI)模型的会话层,从而起到防火墙的作用。代理服务器大多被用来连接INTERNET(国际互联网)和Local Area Net