注意: IP代理精灵仅提供国内ip网络节点,不提供境外网络节点,不能用于任何非法用途或访问境外封闭网站,不能跨境联网,只能用于合法的国内网络加速。

请登录 注册 实名验证

首页 > 新闻资讯 > 爬虫通常采集哪些信息?有风险性吗?

爬虫通常采集哪些信息?有风险性吗?

来源:雪吹西门诗 作者:admin 时间:2018-12-10 17:29:50

    虽然说如果你有技术,什么数据都能爬取到,即使有各种反爬虫设置,但也可以利用各种工具进行突破限制,比如可以突破IP限制的代理IP软件。然而,有些数据是禁止爬取的,如果爬取了可能有会风险,那么爬虫通常采集哪些信息?下面跟IP代理精灵一起去了解一下爬虫通常采集哪些信息


爬虫通常采集哪些信息


    1.采集电商信息


    电商行业爬虫主要是爬取商品信息和价格等数据,由于商业模式的差异,C2C类电商由于中小卖家众多,商品数量远多于B2C类电商,支撑了电商类恶意爬虫近90%流量,B2C类电商加起来占一成左右。


    爬虫可以通过抓取各大电商的评论及销量数据,对各种商品(颗粒度可到款式)沿时间序列的销量以及用户的消费场景进行分析。甚至还可以根据用户评价做情感分析,实时监控产品在消费者心目中的形象,对新发布的产品及时监控,以便调整策略。


    2.采集自媒体/SEO/社交/新闻信息


    根据本次统计,自媒体类爬虫主要集中于微信订阅号关键词搜索和文章访问,分别占总量的64.91%和20.73%,其他自媒体平台约占14.36%。


    SEO类恶意爬虫通常是频繁搜索相关词汇,来影响搜索引擎的排名。


    由于国内的社交平台多数以纯APP为主,部分社交平台并不支持网页功能,因此捕获到的社交类爬虫主要集中在微博类平台,以爬取用户信息和所发布的内容为主。


    新闻类恶意爬虫主要用于爬取聚合类新闻APP及各大门户的新闻信息。以搜索引擎的新闻平台和聚合类APP的数据为主,传统门户类爬虫较少光顾。


爬虫通常采集哪些信息


    3.采集出行信息


    实时火车票信息:对火车购票平台的恶意爬虫访问占据了出行行业近90%的流量,浅析可知其实比较合理,几百个城市,几千趟列车构成国内铁路网,火车站与车次排列组合后是一个非常大的数据集,随着人工购票快速向互联网购票过渡,第三方代购和抢票服务商便越来越多,而任意一家要做到数据实时刷新,都需要不小的爬虫集群,因此导致火车票购买站点成为爬虫光顾最频繁的业务。


    实时共享单车:主要爬取特定区域周边的实时共享单车信息。


    实时公交:主要爬取市内公交GPS信息。


    实时机票:机票类占据出行类8.77%的恶意爬虫流量,主要是爬取各大航空公司实时票价。


    酒店空房信息:酒店爬取占比较少,主要是刷酒店房价,与交通类比较可忽略不计。


    4.采集O2O/地图信息


    O2O行业恶意爬虫主要集中在点评类和团购类公司,其中以爬取商铺动态信息和星级评分信息的点评类数据为主,占总数的90%以上。


    爬虫抓取各种店面的开业情况以及用户消费和评价,了解周边变化的口味,所谓是“舌尖上的爬虫”。以及各种变化的口味,比如:啤酒在衰退,谁在崛起。


    地图类爬虫比较常规,主要是爬取地理位置周边商户详细信息为主。


    5.采集公共行政信息


    公共行政类恶意爬虫主要集中在法院文书、知识产权、企业信息、信用信息等常规商业信息领域,而另一个受爬虫青睐的是挂号类平台,从数据来看应该是一些代挂号平台提供的抢号服务。


    6.采集运营商信息


    运营商的恶意爬虫流量主要集中在运营商各种互联网套餐手机卡的查询。由于互联网套餐手机卡存在较高的性价比,因此网络上形成了相关的刷靓号、抢号、代购等产业链。


    网络上存在多种通过爬虫技术进行靓号手机号搜索的工具,选择手机卡类型,再不断爬取待售手机号,寻找到符合理想靓号规则的号码。下图为某扫号工具截图,可选择数十种不同的互联网套餐卡:


    关于“爬虫通常采集哪些信息”,上文主要介绍了六类爬虫经常采集的信息,除了上面这些外,还有其他的一些领域,比如招聘、问答、百科、物流、小说等。不管是采集那一类信息,建议爬虫还是要适当的控制采集速度,避免造成坏的影响。


    为保证能顺利的采集到信息,爬虫通过需要使用一些突破限制的工具,比如代理IP,常常用于换IP,突破网站的次数限制,还有其他一些限制等等。


    如果需要使用代理IP,建议使用IP代理精灵,可以为用户提高全国海量IP资源,远远可以满足爬虫对IP的需求量。



最新资讯

推荐阅读

  1. 25

    2019-06

    IP代理工程师:python爬虫被封禁的常见问题有哪些?

    做为python爬虫的一员,你是否遇到过IP地址一直被目标网站封杀却找不到原因?那么这里说几个python爬虫被封禁的常见问题,帮助你诊断一下问题出在哪里?

  2. 27

    2018-12

    怎么获得HTTP代理IP?HTTP代理使用方法与须知

    也许很多人都不知道什么是HTTP代理,但是www,大家都很熟悉了,www连接请求用的是http协议,浏览网页,下载数据都可以使用HTTP代理。那么怎么获得HTTP代理?

  3. 06

    2019-06

    高质量代理ip资源去哪里买

    高质量代理ip资源去哪里买?虽然说购买到高质量代理ip资源非常容易,毕竟这些年代理ip市场的发展越来越快,各种各样的代理ip都能够满足人们各类的需求,无论是工作所需还是日常生活无一

  4. 23

    2019-05

    使用免费代理IP有什么风险

    市面上免费代理IP那么多,为什么还有人愿意花钱使用付费代理IP?下面由小编带大家简单分析一下使用免费代理IP有什么风险,相信大家就能够明白了。一、免费代理IP传送信息不安全。同理,

  5. 13

    2018-12

    代理IP支持哪些协议?有区别吗?

    代理服务器可以支持多种协议,但代理IP不一定能支持,通常只能支持比较常用的协议,那么代理IP支持哪些协议呢?选用代理IP之前,一定要先搞清楚,自己使用哪种协议,再选择。

  6. 23

    2019-07

    代理ip的类型是什么

    代理ip​的类型是什么?代理IP的类型,具体是指代理IP协议类型,常见的有HTTP代理、HTTPS代理、Socks5代理等。HTTP代理,全称超文本传输协议(HyperText Transfer Protocol),是互联网数据传输的一种协