- 商业分析思维与实践:用数据分析解决商业问题
- 傅一行
- 1625字
- 2025-03-27 18:51:24
1.4 大数据十字特征
提到大数据的特征,大家都会联想到大数据的4V特征,即Volume(大容量)、Variety (多样性)、Velocity(高速性)和Value(价值性),如图1-3所示。

图1-3 大数据的4V特征
结合我国大数据的研究,《大数据领导干部读本》一书曾概括了大数据的十字特征:“大杂全多快,久活密稀联”,来区别大数据与传统数据的特征,如图1-4所示。

图1-4 大数据的十字特征
1.大——数据量大
大,指的是数据规模大,即所说的海量数据。
2012年,Facebook宣布其系统每天生成25亿条内容,上传3亿张照片,处理500TB以上新产生的数据量;2017年,微信(WeChat)每天有9亿用户登录,日发送380亿条文字消息,其中语音消息61亿条,有2亿次视频通话,微信朋友圈日均上传图片超10亿张。
2.杂——结构复杂
杂,指的是数据的存储类型多种多样,数据结构复杂。
数据的形式也是多样化的,可以是连续的数值,也可以是文字、符号(数字数据),或者声音、图像等。
传统的小数据,为了便于存储和快速处理,一般都是结构化的数据。而大数据,不仅包含了结构化的数据,更多的是非结构化和半结构化的数据,比如互联网上的文本、图片、音频、视频等,都是大数据。
3.全——维度全面
全,指的是业务数据的多维性,即数据样本的维度较多,能够全面呈现数据对象。
比如,要了解一个用户行为,不仅要收集其基本数据(如性别、年龄、住址、联系方式),还要收集其搜索浏览数据(如百度搜索关键词、浏览网页地址),甚至交易数据(如淘宝购物数据、京东购物数据)等多个维度的数据,这样才能够全面体现用户的需求和偏好。
不过,全是一个相对的概念,绝对的全是不存在的。
4.多——来源多
多,指的是数据的来源多。数据不仅来源于销售,也来源于生产;不仅来源于企业内部,也包含很多外部数据。实际上,单个企业一般只会基于某种业务目的来收集相应的数据。比如,销售数据只会保存在交易数据库中,而用户的浏览数据则主要来源于网站日志,这样数据的来源就比较多样化了。
5.快——速度快
这里的快有两层意思:一是指数据产生的速度快,二是要求数据处理速度也要快。
按照“新摩尔定律”,人类每18个月产生的数据量相当于以前全部数据量的总和。这么快的增长速度,要求数据的处理效率也要高,否则,其数据处理的意义就不大了。
比如,在交通路口拍摄的照片需要及时传回到大数据系统中进行处理,从照片中提取出经过某个路口的车牌号、时间点等信息,以便公安或交警部门快速地定位违法车辆,必要时进行拦截。如果处理的速度不够快,产生数据时效性差,那么数据分析后的结果就意义不大了。
6.久——时间跨度长
久,指的是大数据的时间范围要足够长。时间越长,就越能发现事物的长期规律。
比如,全球的经济危机,其爆发的周期约为10年,即每隔十年左右才会发生一次。如果收集的数据时间跨度太短,是不太可能从数据中发现这样的长周期性规律的。
7.活——实时在线
活,指的是数据的实时性,要求数据是实时在线的,能够随时查看和计算。
比如,交通行业要求的大数据要能够实时在线处理,以呈现实时路况,这样才能有效地利用大数据及时发现拥堵,并指导车辆分流,规避拥堵。
8.密——间隔短
密,指的是收集数据的时间间隔或地域间隔要足够短,这样才能准确地用来描述业务的情况。
比如,公交车上的GPS数据,其两次上报的时间间隔要足够短,其位置间隔也要足够短,这样才能用于精确定位,数据才有实用价值。
9.稀——价值密度低
稀,指的大数据的价值密度低,即有价值数据的比例比较小。
特别是一些监控视频数据,其中真正有价值的数据也许只有1~2秒。但是,为了得到这几秒有价值的信息,却必须保存大量的视频数据。正如有人自我揶揄说,为了提炼一点点金子,却需要保存整个沙滩。
10.联——相关联
联,指的是数据之间的相关性。万事万物都是有某种联系的,体现在数据上就是数据与数据间的相关性,以此可以探索业务各种因素之间的相互影响关系。
这十个字,分别从数据的特征、数据的采集、数据的处理要求,以及数据分析等不同的角度来描述大数据,是比较全面的,具体概括如下表所示。
数据十字特征
