- 大数据导论
- 于俊伟 母亚双 闫秋玲编著
- 2443字
- 2025-03-28 17:07:31
1.1
大数据的产生及其特征
1.1.1
大数据的产生
人类进入文明社会以来,从远古时代的结绳记事、象形文字,到近现代的数据仓库、数据建模,数据见证了人类社会的发展变迁。
数据是对客观事物的性质、状态及相互关系等内容的记录,从计算机科学的角度来说,数据是所有能输入计算机并被计算机程序处理的符号的统称,是具有一定意义的数字、字母、符号和模拟量的统称。随着计算机技术的发展,计算机能够存储和处理的数据越来越复杂。按照数据是否具有较强的结构模式,可将数据划分为结构化数据、半结构化数据和非结构化数据,其中,我们生活中遇到的计算机系统日志、文档、图像、音频、视频等数据大多是非结构化数据。
随着计算机、移动互联网、物联网和人工智能等技术的快速发展,数据的获取、存储、处理、显示和传播等越来越快捷,数据规模也呈爆炸式增长。根据权威数据统计机构Statista的统计和预测,2035年全球数据产生量将达到2142ZB(1ZB=1012GB)。在当前“人-机-物”三元融合发展的背景下,连接物理世界、信息空间和人类社会的大规模数据蕴含着巨大的价值,已经成为一种新型的战略资源,受到学术界、产业界和政府部门的高度关注。
“大数据”这一概念最早出现于1998年,美国生产高性能计算机的公司SGI的首席科学家约翰·马西在一个国际会议报告中指出,随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等难题,并用“Big Data”来描述这一难题。2007年,数据库领域的先驱人物吉姆·格雷指出大数据将成为人类理解现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。2011年,麦肯锡全球研究院发布《大数据:下一个创新、竞争和生产力的前沿》,正式宣告大数据时代的到来。
2014年之后大数据概念逐渐成形,大数据相关技术、产品、应用和标准不断发展,逐渐形成了由数据资源与应用程序接口、开源平台与工具、数据基础设施、数据分析、数据应用等模块构成的大数据生态系统,并持续发展和完善,其发展热点呈现了从技术向应用再向治理逐渐迁移的过程。
1.1.2
大数据的特征
大数据本身是一个抽象的概念,虽然在社会上引起了人们的广泛关注,但是至今未有公认的学术定义。我们综合维基百科、美国国家标准与技术研究院和麦肯锡全球研究院等权威机构的描述,认为大数据是指规模庞大、结构复杂,无法在可容忍的时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。
目前通常认为大数据具有4V特征,即规模庞大Volume、类型繁多Variety、速度快Velocity和价值密度低Value,如图1-1所示。

图1-1 大数据的4V特征
(1)规模庞大:大数据数据集对于现有的计算和存储能力来说规模过于庞大,需要可伸缩的计算结构支持其存储、处理和分析。随着网络和信息技术的不断发展,人们可以通过社交媒体、智能设备、商务交易、工业装备等搜集数据。根据国际数据公司IDC的估计,近年来数据一直在以每年50%的速度增长,这称为“大数据摩尔定律”。随着数据规模的增加,数据存储的单位也由TB增加到PB,近几年甚至使用EB和ZB来计算(以上相邻单位的进率均为210)。图1-2显示了2021年互联网每分钟产生的各类数据量,可以看出,YouTube每分钟上传500小时的视频内容,Instagram每分钟分享69.5万个故事,WhatsApp和Facebook Messenger每分钟发送近7000万条消息。在过去,如何存储如此庞大的数据是一个难题,现在有了数据湖和Hadoop平台等存储方案,大大减轻了数据的存储负担。
(2)类型繁多:大数据面对各种各样的应用场景,所产生的数据类型和数据结构多种多样。数据类型多样往往导致数据的异构性,进而加大数据处理的复杂性,对数据处理能力提出了更高的要求。随着传感器、智能设备及社交协作技术的飞速发展,组织中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件、搜索索引、社交媒体、电子邮件、文档、主动和被动系统的传感器等原始、半结构化和非结构化数据。
例如,滴滴出行大数据平台就需要获取交通路况、天气信息、用户订单、司机驾驶行为、车辆状态数据、区域定义、拥堵情况等多个维度的信息。据2019年城市交通出行报告显示,滴滴出行平台每日新增轨迹数据超过108TB,每日处理数据4875TB,每日会有超过400亿次的路径规划请求和150亿次日均定位。这些数据类型各异、快慢不一、规模巨大,因此需要大数据处理技术进行供需预测、路径预测、智能派单等分析处理。
高德地图今日联合国家信息中心大数据发展部、清华大学交通研究所等多家权威机构共同发布《2021年度中国主要城市交通分析报告》,通过分析人和车的位置、速度、数量、轨迹等信息,建立路网高峰行程延时指数、路网高峰拥堵路段里程比、高峰平均速度等交通健康指数,对城市地面道路交通健康水平进行综合评价诊断。

图1-2 2020年互联网每分钟产生的各类数据量
(3)速度快:随着物联网等技术的发展,大数据以前所未有的速度流向企业和应用,这推动着大数据技术必须以接近实时的速度来处理和分析数据。这里需要将数据产生和变化的速度与商业业务流程和决策过程的实时性相结合,从而从数据中快速抽取出真正有价值的信息,数据处理的模式也从批处理转向流处理。业界对大数据的处理速度有一个著名的“1秒定律”,即要在秒级时间内给出分析结果,超出该时间数据就会失去价值。例如,IBM(万国商业机器公司)有一则广告,讲的是“1秒钟能做什么?”,1秒钟能检测出中国台湾的铁道故障并发布预警;也能发现得克萨斯州的电力中断,避免电网瘫痪;还能帮助一家全球性金融公司锁定行业欺诈,保障客户利益。
(4)价值密度低:数据价值体现在统计特征、事件检测、关联和假设检验等各个方面。调查研究表明,大数据收集了很多原来很难收集、很难使用和看似无用所以经常被丢弃的数据,导致有价值的数据被淹没在无用的数据中,因此有“价值密度低”这一说法。但许多应用表明大数据中蕴含着巨大的商业价值,专家将大数据视为像石油一样的重要战略资源。因此,从价值角度来说,如何快速定位有价值的数据、合理度量数据集的价值密度,是大数据处理要面对的核心问题之一。