1.分析
首先打开抓包神器 Fiddler ,然后打开漂流瓶首页,加载几页试试,在Fiddler中过滤掉图片数据以及非 http 200 状态码的干扰数据后,发现每一页的数据获取都很有规律,这就给抓取提供了便利。
看参数很容易明白,page_number 就是当前页码,page_size 就是当前页中包含的漂流瓶数量。
访问后得到的是一个json格式的数据,结构大致如下:
2.编码
这里采用的是 python2.7 + urllib2 + demjson 来完成此项工作。urllib2 是python2.7自带的库,demjson 需要自己安装下(一般情况下用python自带的json库就可以完成json解析任务,但是现在好多网站提供的json并不规范,这就让自带json库无能为力了。)
demjson 安装方式 (windows 不需要 sudo)
sudo pip install demjson
或者
sudo esay_install demjson
2.1获得一页内容
2.2根据url保存图片数据
全部代码如下
爬虫总是爬取一个网站信息时,IP地址就很容易被封,那么这时候就要切换IP地址,精灵IP代理海量ip,每天超过一千两百万IP供你选择,代理IP是爬虫的好助手。