注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 代理IP如何帮助爬虫爬取淘宝商品价格信息的

代理IP如何帮助爬虫爬取淘宝商品价格信息的

来源:互联网 作者:admin 时间:2019-04-11 16:32:29

代理IP如何帮助爬虫是爬取淘宝商品价格数据的。这次的主要抓取目标是获取淘宝搜索结果页面的信息,提取商品名称和价格的信息数据。下面我们以手机为例。


代理IP如何帮助爬虫爬取淘宝商品价格信息的


代码如下:


import requests


import re


def getHTMLText(url):


    try:


        r = requests.get(url, timeout=30)


        r.raise_for_status()


        r.encoding = r.apparent_encoding


        return r.text


    except:


        return ""


def parsePage(ilt, html):


    try:


        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)


        tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)


        for i in range(len(plt)):


            price = eval(plt[i].split(':')[1])


            title = eval(tlt[i].split(':')[1])


            ilt.append([price, title])


    except:


        print("")


def printGoodsList(ilt):


    tplt = "{:4}\t{:8}\t{:16}"


    print(tplt.format("序号", "价格", "商品名称"))


    count = 0


    for g in ilt:


        count = count + 1


        print(tplt.format(count, g[0], g[1]))


def main():


    goods = '手机'


    depth = 2


    start_url = 'https://s.taobao.com/search?q=' + goods


    infoList = []


    for i in range(depth):


        try:


            url = start_url + '&s=' + str(44*i)


            html = getHTMLText(url)


            parsePage(infoList, html)


        except:


            continue


    printGoodsList(infoList)


   

main()


通过以上代码,我们就可以获取到具体的商品价格信息数据了。IP代理精灵,数据采集服务服务提供商,为您提供更快,更可靠的服务。


最新资讯

推荐阅读

  1. 05

    2019-06

    如何使用Linux系统的动态VPS自动更换IP

    互联网上一些项目也越来越受欢迎,但是一般的项目都是要求真实的IP,所以要想获得大量的真实ip,一种动态VPS就诞生了,动态VPS采用PPTP或者ADSL拨号的方式获取动态IP,不仅可以做到获取区域

  2. 26

    2019-07

    网络爬虫一定要用代理IP吗?

    网络爬虫一定要用代理IP吗?这个问题答案了如果想提高效率,从上文看来。需要大量采集,真的没有代理IP不行的如果需要使用代理IP就智连代理也是非常不错的使用智连代理高质量IP池辅助企

  3. 25

    2020-03

    购买动态VPS需要多少钱?

    购买动态VPS需要多少钱?很多人都需要更改ip,例如爬虫注册,刷票收集等。动态 VPS服务器 也可以更改IP。购买动态VPS需要多少钱?

  4. 13

    2019-05

    如何区分HTTP代理和Socks代理

    代理服务器英文全称是Proxy Server,其功能就是代理网络用户去取得网络信息,形象的说:它是网络信息的中转站。最常用的代理莫过于HTTP代理,还有一种代理用的也很多,那就是Socks代理,那么

  5. 18

    2019-09

    python爬虫如何生存

    python爬虫如何生存。目前互联网产品竞争激烈,业界大部分都会使用python爬虫技术对竞品产品的数据进行挖掘、采集、大数据分析,这是必备手段。有爬虫,自然就有保护自身信息安全的反爬

  6. 17

    2018-12

    如何搭建一个稳定的代理IP池?

    应该不少人都看过很多搭建代理ip池的文章, 然后发现都是坑, 无法使用。 绝大部分, 在你搭建好以后, 发现爬虫还是爬不动, 免费代理ip根本无法使用的好伐!