二、数据和信息的属性

数据作为新型生产要素,它拥有与传统要素不同的若干属性,信息作为其价值的传递链条,也有独特之处。在辨析数据与信息的定义后,本部分对其各自属性进行总体介绍。

(一) 信息的属性

1. 信息的存在

信息是客观普遍存在的,且必须依附于载体而存在。就信息的存在来说,可以归纳出四种相关属性。

一是普遍性。客观世界一切本质而一般的属性,都能够由信息来反映,信息是一切物质客体和人的生产活动的普遍属性。可以发出信息的信源是普遍存在的,包括自然界和人类社会在内的任何事物,都可以发出信息。信息也发生在事物的运动与相互作用中,事物的运动都伴随着信息的运动。信息的普遍性可以分两个层次来认识,分别是本体论层次和认识论层次。从本体论层次来说,自然界中的相互作用存在于一切物体中,变化和运动时刻发生在任何有生命或者无生命体上,新的运动状态伴随着事物的相互作用和变化出现,这些运动状态是信息运动过程的表现。从认识论的层次来说,信息的定义中加上了“认识主体”这一约束条件,主体对事物状态和运动的感知以及主体对此的表述被认为是信息,包括状态和方式的外在形式、逻辑含义、效用等,而这些都是具有普遍性的。普遍性意味着不为时间和空间所局限,也不受物质和精神的局限,它所指的是广泛存在的性质。从生活出发,信息无处不在,构成世界的日月星云、生命体的遗传信息、人体内的功能性活动、人与人之间交流的语言、智能生物的感知探索和行为都是信息。世界是物质的,物质是运动的。客观存在的各种系统的运动状态都会产生信息,而生命体的精神、意识、思维的活动也会伴随信息出现,人们生活在信息的海洋里。

二是客观性。就信息的存在本身来说,它是不以人的意志为转移的。客观存在的各种系统的运动状态和变化规律一旦成为信息,信息也就具有了客观性。信息的存在是客观的,但是信息在被感知、接收、识别的过程中可以是不完全的,也有部分学者认为信息具有主观性。本部分阐述的客观性主要是指信息存在属性上的客观性,信息不是物质、不是能量、没有固定形态,是与物质世界同步演进的客观存在。1 从宇宙大爆炸到地球生命诞生再到如今的信息时代,信息在这100多亿年的历史中随处可见,这是不证自明的。它无法被“看见、听见、闻到、摸到”,但是正如能量、波、数据、空间等,都是客观存在的。颜色的存在来自光波,声音的存在来自物体的振动,味觉的存在来自口腔中分子结构的神经冲动,颜色、声音、味觉都是主观感受,光波、振动、分子结构是客观真实。“感觉”可以让人们脱离客观世界,在一个由大脑建立的新世界中以另一种方式重新认识客观。人们感受到的客观多为便于理解而设定的概念。而在客观世界里,真正存在的是物质与能量等留下的痕迹,而这些痕迹正是为人们所感知的信息。信息是最根本、最客观的存在。

以上阐述的是信息存在的客观性,而信息内容本身客观与否,在理论上一直未得到统一意见。以马西娅·贝茨(Marcia Bates)等人为代表,他们认为信息是客观的,信息的客观性来自信息来源和内容的客观性。信息是自然界和人类的实践活动及存在方式的表达,是一种组成形式,物质的客观性不以人的意志为转移,而其带来的信息也应当是客观的。但这种观点更多是从本体论的角度而非实用的角度进行考虑,忽略了基于不同学科领域和知识背景对信息的不同解读和利用不一,在为信息的科学研究和实用提供理论依据上比较困难。而以比厄·约尔兰德(Birger Hjorland)、施旁-汉森(Spang-Hanssen)等为代表的学者则认为,信息具有主观性。这种观点主要从认识论的角度去考虑,认为只有当认识主体接收到信息时,信息才真正成为信息。不同的认识主体有不同的认识方式,对信息的认识和解读离不开接收者自身的目的,所以接收者对信息的主观印象又是难以忽略的。同样地,发出信息者对于信息的内容、接收者、传递方式和目的等也有一定的影响。同样的信息在不同的发出者和接收者之间可能会有很大差别,不同领域的研究者看待同一事物所传递出的信息的态度,是基于其受教育背景及信息传递时的具体情境而形成的,是带有主观色彩的。这种思想更多的是从应用角度分析信息。2 两种说法都有其道理,需要辩证地理解。

三是依附性。信息必须依赖物理世界而存在,任何信息都有物质承担者,即载体。信息本身不是实体,只是消息、情报、指令、数据和信号所包含的内容,必须依靠某种媒介进行传递。这种媒介,是信息赖以附载的物质基础,即用于记录、传输、积累和保存信息的实体。信息载体包括:以能源和介质为特征,运用声波、光波、电波传递信息的无形载体,以及以实物形态记录为特征,运用纸张、胶卷、胶片、磁带、磁盘传递和贮存信息的有形载体。

信息载体的演变,推动着人类信息活动的发展。从某种意义上说,信号革命就是信息载体的革命。3 人类传递信息的第一载体是语言,人类因此得以实现社会交际和思想交流。随着生产力发展和社会进步,文字作为信息的第二载体出现,信息的传递得以超越时间和空间的限制。而电报、电话、无线电的发明,使人类信息活动进入了新纪元,信息传递的速度和数量得到了大幅提升,人类可以全天候进行沟通和联系。载体的不断更新也带来了一轮又一轮的信息革命。而今,从DNA到量子,更多的载体正在被研究和尝试,它们都可能成为新的驾驭信息的方式。信息载体的不可分性,意味着信息的存在也需要遵循相应的物理定律。例如,信息的存储需要依附某种物质,而一定量物质存储的信息是有限的,因此,一定量的物质包含的信息有限,一定时间和空间所包含的物质也是有限的。信息依托载体实现跨时空的延续和演进,研究信息载体是很有价值的。

四是无限性。在整个宇宙时空中,信息是无限的。只要信息的来源不断拓展,信息就没有止境。信息的无限性可以从两个方面来理解。一方面,客体产生信息具有无限性。只要事物在运动,就有信息存在;只要人类认识和改造客观世界的活动不停止,这些活动就会衍生大量的信息供人类利用。信息永远在繁衍、更新、创造,是一种取之不尽、用之不竭的资源。另一方面,认识主体利用信息的能力和领域具有无限性。随着时间的推移和空间的转换,特别是人类能力的增强,对于某一系统或某一时点没有价值的信息,对于另一个系统或另一时点则可能是有用的信息。例如,广播电台播出近两天的天气预报,为关心近两天天气状况的人提供了信息。两天一过,这些信息对这部分人也许失去了作用,但对研究一段时期天气变化规律的科学家来说,这些仍是重要的信息。信息的无限性说明,任何信息都是有用的,并且随着人们能力的发展和活动领域的拓宽,对信息的利用会无限地扩充。

信息无限性的这种表现又被称为信息的可扩充性。人类的历史其实是以信息的积累为台阶前进的,现代科学认为信息也属于宇宙基本组成的一部分。与有限的物质资源相反,信息是无限累积的,并且可以呈现出指数爆炸的增长态势。这也是这个世界越来越复杂的原因。

2. 信息的本质和原理

信息有多种多样的定义,每一种应用方向和研究方向都有自己的定义。而信息的本质究竟是什么,目前学术界还没有统一的观点。针对信息的本质和原理进行探究,可以归纳出三种相关的属性。

一是相对性。信息论的创始人香农在分析密码的过程中,将信息从载体中抽离。他把信息看作一种不确定性中的概率选择,这就使信息跳出了波形、开关、语法、声音等载体形式的表面,展示出它相对性的本质。通过古老的信息传递方式,可以直观理解这一点。烽火台用“有火”和“无火”的相对性,来描述“有险情”和“无险情”的相对性,即通过事件的对应编码将一种相对性转化为另一种能被传递的相对性,这个传递相对性的过程也传递了信息。用密码学来举例,在密钥完全随机的情况下,密钥的符号长度与信息长度相等,“信息所包含的相对性”用“密钥所含的相对性”来描述。相对性的数量相比形式更加重要。如果用N个相对性来描述M个相对性:在N<M 时,就会出现信息不足导致描述不清而失真的情况;在N>M时,就会因信息过多而产生冗余的现象;在N=M时,两边信息量相等。到图灵机时代,相对性被简化到用“ 0”和“ 1”来表述,由这两个相对数字即可产生无数的指令和数据,进行多步骤的计算,证明了“一切命题都可以在有限步骤内判定”。从上述事实可以判断,信息的本质是用相对性来描述相对性。

二是有序性。信息可以增加系统的有序性,以此来消除系统的不确定性,这是用熵来度量信息的基础。从热力学角度来看,无序度总是随着时间的推移而增加,也就是说熵总是在增加。但是,19世纪的英国物理学家詹姆斯·克拉克·麦克斯韦(James Clerk Maxwell)提出了“麦克斯韦妖”的设想,即绝热容器中间的门可以选择性地将不同速度的分子放入两侧,这扇门由精灵操作,而操作的依据为分子运动的信息。这个设想表明,信息可以从无序中创造出有序。后来图灵机的发明更印证了这个设想,仅需输入由“ 0”和“ 1”构成的指令集,计算机就可以描述物理定律和自然进程,模拟打字机或电话,计算、摄像、音乐等功能也得以实现。发展到现在,人工智能可以帮助人们驾驶一辆汽车,打扫一个房间,参与一个正在发展变化的系统与进程。通过简单的操作符号,信息可以帮助人们建立和维系自然世界的秩序。

三是层次性。人们需要关心的信息往往只是一部分,其余的则是噪声,这就带来了信息的层次性问题。以圆周率为例,这个数字既存在于大大小小的每一个圆里面,也存在于每一个和圆相关的过程之中,而印刷在书上的数字包含了更多人们关心的信息。这说明信息是有层次的,高层次的信息具有更少的信息量,却有更为广泛的实用性和代表性。人类的科学体系不断追求更为抽象和精确地对世界的描述,也就是说,要尽可能精确地描述这个巨大信息处理器的不同层次,在符合自然规律的同时,又要尽量简单明确。人类的流行科学理论并非对大自然的唯一描述。自然是一个有层次的系统,它所产生的信息自然也是有层次的,任何合理的信息处理系统都是分层的。层级之间有其信息依赖模式,层级内部的依赖性最大,其信息的交互量也最大,而层与层之间交互的信息会相对少一些。在稳定的信息流下,系统会形成稳定的结构。

3. 信息的运动性

信息不是一成不变的,它时刻运动着,由信息的运动性可以归纳出如下四种属性:

一是动态性。在经典信息论中,香农定义信息为用来消除随机不确定性的东西。这句话的含义十分丰富,不确定性的消除是一个过程,只有在编码和解码的过程中,不确定性才能被消除。不确定性无法在过程之外体现意义,信息也是由作用过程所间接定义的,单一的实体物质不能直接作为信息,而只能视为一种信号源,信息只有在与之对应的处理系统中才有意义。作为信号源的物理世界是不断变化的,编码和解码的方式与过程也是变化发展的。举例来说,随着时间的推移,保存信息的物质的信噪比会逐步下降。例如,石头上的刻字和符号,百十年后,会变得模糊不清,这一方面源于石头粒子自身的运动,一方面来自其与外界环境的相互作用。在此作用过程中,原本的高质量信息以一定的概率逐步弥散到周围的环境里,信息的部分状态得到确认,而另一部分状态被随机改变。在此过程中,信息的明确性逐步坍塌,信噪比也逐步降低。

二是发展性。从宇宙大爆炸开始,信息就弥漫于整个空间。35亿年前,地球上已有生命,其开始对世界的冷热干湿、风雨雷电等自然现象有所感知,并在为生存而斗争的过程中,逐步改变了遗传基因。随着简单生命逐步进化为复杂的生物,信息能够被更好地感知和处理,也进一步促进了遗传基因的进化,二者始终相辅相成。在远古时代,人类开始有意识地记载DNA进化作用以外的信息,开始在石壁上刻画符号把信息保存下来,让子子孙孙可以通过符号学习如何狩猎,不断地积累经验与改进技术。在亿万年之中,自有态信息得到发展,记忆、语言也进一步产生,智人诞生了。表达含义的符号与概念逐步形成,文字被创造出来,信息开始逐渐被记录下来。从此,信息可以保存在人脑之外,这意味着信息可以跨越巨大的时空。信息的质量也在不断提升,从依赖于人与人之间的口口相传,到传递和处理各种信息的基础设施和能力的相应提升,人类的智能水平在提高,接收、处理信息的能力持续增强。随着记录态信息的不断增加,人类智能水平及发展达到前所未有的高度,生产力也发展到前所未有的水平。在这个过程中,信息既是基础,又是推进器。人类社会的不断发展与信息的不断发展是紧密相连的。

三是变换性。信息是可以变换的,这可以从两个方面来理解。一方面,同种意义的信息可以用不同的载体、不同的方法来载荷。信息和符号之间可以相互转化,文字、语言、代码、电磁波都可以用来表达同一内容的信息。举例来说,法国人约瑟夫·玛丽·雅卡尔(Joseph Marie Jacquard)在1804年发明了提花机,这种机器当时被用来织出美丽的丝绸锦缎图案,以满足人们对美的需求。当时,这是人类有史以来发明的最复杂的机械装置,其关键在于穿孔卡片,需要编织的信息以有孔无孔的相对性存储在穿孔卡上,在穿孔抬线之间,打印出精美的图案。穿孔卡,是简单的符号信息;有孔与无孔,能留存非常复杂的事物的本质,这实际上已经用到了非常超前的二进制的思想,最初的计算机也是利用打孔卡片进行编程的。时至今日,有孔与无孔的表达可以被多种多样的方式所取代,变换的方式能够表达出一致的内核。此外,不同的物质载体[如纸张、胶片、磁带(盘)、光盘]也可以装载相同意义的信息,这些载体可以载荷相同的思想、理论、知识等,它们之间也可以相互变换。

四是时效性。信息的实效性是显而易见的。中国有句谚语“老皇历看不得”,是说不合时宜的东西或做法没有用处;也有一个成语“明日黄花”,是被用来比喻已经失去新闻价值的报道或者已经失去应时作用的事物。天气预报对于普通民众来说,只是短暂有用。咸阳出土的两千年前的秦国军书或者情报,现在看来,也已经失去了传递军事信息的价值。

4. 信息与人类的交互过程

信息可以被识别、度量、存储、传递、共享,在这些过程中,信息被有效地管理并发挥价值。从信息与人类的交互过程中,可以归纳出如下五种属性:

一是可识别性。信息是普遍存在的,它弥散在整个宇宙之中。人类则依靠自己的感觉器官或者借助各种仪器设备实现对信息的感知、接收、识别,进一步地,通过对事物信息的感知与识别来认识世界。显而易见,人类认识世界的客观基础就是信息的可识别性。信息哲学将人类对信息的认识分为五个层次,分别是信息的自在活动、信息直观识辨、信息记忆储存、信息主体创造和主体信息实现。第一层是“信息的自在活动”,是指自身存在物在与周围环境相处的过程中,不断异化自身信息,同化环境信息的过程。自在信息构成了人信息活动的最底层结构,为人的认识活动奠定了基础。第二层的“信息直观识辨”是认识信息的起始阶段,是人脑或人的神经系统把自在活动的对象信息转化为主体直观识辨的信息的过程。这个过程也就是通常所说的感知,包括感觉和知觉两种形式。在通过自身活动与外界或对象进行信息交换的过程中,人脑或人的神经系统将外界部分“自在的对象信息”转化为主体直观识辨的信息。这些信息包括环境信息、人自身的行为活动及状态的信息,它们在这个过程中脱离自在状态,上升为“自为信息”。 “信息直观识辨”是最初级的信息认识层级,只完成这一步骤,人的意识和能力仅达到新生儿水平,“信息直观识辨”无法带来认识和发展,也就是说,如果主体对对象的感觉和知觉只停留在对对象的当下感知上,而得不到保持和再现,人类是无法前进的。“信息记忆储存”是认识信息的第三层,认识主体对其经验信息的记忆存储,使得对这些经验信息的检验、修正和发展成为可能,也使进一步的认识活动成为可能。认识主体一般具有对其经验信息进行识记、保持和通过再现形成表象的能力,即对其经验信息进行记忆储存的能力。主体的认识不会停留在对对象的当下感知上,但是,也不可能全部的经验信息都被主体记忆储存,总是存在被遗漏或遗忘的经验信息。经过信息直观识辨和信息记忆储存两个层次,信息即成为对对象的直接的、生动的、个别的认识。但对信息的认识仅停留在这两个层次上,很难创造出价值,要经过第四个层次——“信息主体创造”,才能在原有表象信息的基础上,加工改造出新的信息。这种创造新信息的过程就是通常所说的人的思维过程,这种关于对象的新信息的认识具有间接性、抽象性和普遍性的特征。不过,以上所说的几个层次,还没有超出信息认识的范围,因而不算真正完成认识信息的全过程。因为在对信息的认识范围之内,既无法实现认识信息的目的,也无法确证对信息的认识是否成立,更无法修正和发展信息认识。信息认识的目的是指导实践,信息认识的真正作用也是指导实践。信息认识不用于指导实践,就不能发挥其真正的作用,也就不能完成信息认识的任务和整个过程。确证信息认识成立与否,就是通过实践去检验信息主体创造的新信息,看能否把这些新信息变为现实。信息认识的第五个层次,即最高层次,就是“主体信息实现”。在信息主体创造层次上产生的新信息,只有通过实践变为现实,才算完成整个信息认识的过程。通过信息认识来指导实践,发现实践中出现问题或失误的环节或步骤,从而修正和发展信息认识。确定信息主体创造的新信息在哪一点上有缺陷,在哪一点上同信息认识对象的实际不相一致,不断纠正错误,继续实践,从而使信息得到发展。综上所述,“主体信息实现”使信息真正应用于实践中,并使整个信息认识过程趋于完整。信息认识各层次之间存在着递进生成和全面“制导”的交互作用关系。4

二是可度量性。信息是一个比较抽象的概念,看不见、摸不着,许多科学家就信息的度量提出过相关理论。其中,香农提出的理论被广泛用于信息学界。香农认为,信息能够减少或消除系统的不确定性,可以用不确定性的变化程度来度量信息,他在不确定性与信息之间建立联系,给出了信息的计量单位——比特。任何信息,都可以被转换成二进制数字0和1组成的序列。每一个0或1是信息的基本单元,也是最小单位,它能够用相对性表达一切,任何体系都具有相对性,如同一枚硬币的正反面、开或关、有孔或无孔、有或无等,这些都能够存储1 比特信息。比特成为信息的通用语言,任何声音、图片、文本等都可以转化成二进制的比特进行度量和操作。这是一个创造性的贡献,使得信息便于管理和控制,也从根本上影响了人类社会的诸多领域。基于先验概率的香农信息量计算在人们的日常生活中已有相当深厚的应用基础。但是,现实生活中所说的信息量和香农的信息量的含义并不完全相同。

这里可以通过一些实例说明。用香农第二定理来计算各种语言中字母所包含的信息量,假定各种语言中的每个字母或字在它们所在的语系中被使用的频率是相等的,那么,将每种语言的符号总体作为一个信源来考察,将每个字母或字的使用频率代入香农公式,就可以得到每种语言所谓的信息特征。如把英语的26个字母代入,则每个字母的信息量是4.70比特,依此类推,法文的平均信息量是3. 98比特,中文的平均信息量是9. 65比特。而语言的信息量用这种方式衡量并没有太大的说服力,许多学者认为这是对香农理论的滥用。同样地,如果用香农定理计算蛋白质的信息,那么胰岛素二聚体包含355比特信息,但是,没有多少生物学家能明白这究竟是什么意思。雅各布·贝肯斯坦(Jacob Bekenstein)提出的广义热力学第二定律为任何孤立的物理系统设定了信息的容量限度。他于20世纪七八十年代开始研究宇宙熵界,依此确定特定尺寸和特定质量的物质能够包含的信息量的界限。 20世纪90年代,美国斯坦福大学实验物理学家伦纳德·萨斯坎德(Leonard Susskind)提出了全息界的概念,确定了一定体积的物质或能量所能包含的信息量的界限。一个直径为1cm的装置,理论上可以存储高达1066比特的信息量,而最新研究表明,宇宙可能包含约6×1080比特的熵。斯蒂芬·霍金(Stephen W. Hawking)得出黑洞熵值和视界表面积之间的比例关系是:黑洞的熵值恰恰是按照普朗克表面积丈量的视界表面积的1/4。再根据玻尔兹曼公式和香农公式的关系,物理学家得出:黑洞视界的面积就是黑洞所具有的信息量。一个直径为1cm的黑洞的熵值约为1066比特,这相当于一个边长为100亿千米的立方水柱的热力学熵。黑洞的信息量可以被轻易求得,但是,它代表的意思却并没有被解释清楚。从以上例子中可以看出,按照香农理论度量信息,并不总是具有实际意义的。有部分学者提出了“信息丰度”的新概念,它代表某种含量的丰富程度,比起信息量,它比较模糊,但是模糊比清晰更好做解释,即便它很难被计算。试图突破传统香农信息计量理论的探索很多,包括钟义信的全信息理论、费希尔的信息估计理论、巴尔金的“信息受托人”理论等5,这仍是一个有待科学家们进一步研究的问题。

三是可存储性。信息是可以存储的。人类存储信息,主要是通过对信息载体的存储来实现的。图书、期刊、资料、档案、磁带、磁盘、光盘等存储了大量信息。通过存储信息可以实现信息的累积。人类存储信息的目的是利用信息。为了日后能方便、有效地利用信息,人类创造了一整套加工处理信息的技术和方法,以实现信息的有序存储。信息可以存储,但是信息不可以无限存储。随着计算机的发展,人们的信息存储能力越来越强大,并且对高密度存储习以为常。从“沉重”的古代书籍竹简,到后来的纸书,再到现代的磁盘,信息的存储密度提高了成千上万倍。虽然存储的密度不同,但是其代表的信息是完全一样的。尽管信息存储的密度随着技术的发展在不断提升,但是这个密度是有上限的。有理论认为,黑洞是世界上最高效的信息存储器件,其包含的信息量,正比于黑洞视界的表面积。

四是可传递性。信息的产生与信息的传递是联系在一起的,是不可分割的。信息是事物的本质、特征和运动规律的反映。信息在信源和信宿之间通过一定的信道(媒介或载体)传递,为信宿(人或仪器设备)所感知和接收。这种传递包括信息在时间上的传递和在空间上的传递。在多数情况下,信息的传递依赖于信息载体的传递,并伴随着对信息的处理、转换和存储。信息既不是物质,也不是能量,但必须指出,信息的传递离不开物质和能量。在信息的传递过程中必定有一定的物质及其运动的传递或变换,以及能量的传递或能量形式的变换。例如,电报、电话、电视、广播等现代社会信息传递的方式都离不开物质和能量的传递和变换。信息必须由物质来承载,同样,信息的变换和传输也必然有对应的物质世界的改变。

信息传递是有限制的,物理学中的狭义相对论对信息理论的重大贡献就是,它严格限定信息传输的最高速度就是真空里的光速,这是现实世界对信息传输做出的根本性限制。同时,信息的传递除了速度限制还有带宽的限制。所谓的带宽,就是单位时间内信息源和目标之间能够传递的比特数,也就是信息量。在需要大带宽的场合,虽然传输速度不能超过光速,但是可以使用更高密度的传输,也就是发送大量的携带信息的物质。这就像虽然公路是限速的,但是如果把公路造得更宽阔,就可以通过更多的车了。然而,因为前面所说的信息存储密度是有上限的,所以传输带宽必然有限。假设当公路造的宽度都超过长度的时候,就无助于继续提升车的通过量了,因为车从道路两侧的一边开到另外一边的距离已经超过整个公路的长度了。信息传输也是一样的,任何信道都有其传输带宽的上限。此外,信息通道的带宽还会受到发送节点和接收节点的处理能力的限制。人们为了拓展带宽,可以在两个节点中间增加更多的信道,当然,这么做仍然不能让带宽无限加大。

五是可共享性。如果你有一种思想,我也有一种思想,我们相互交流,我们就都有了两种思想,甚至更多。这说明信息不会像物质一样因为共享而减少,反而可以因为共享而衍生出更多。一般的物质、能量资源为所有者拥有,在交换或使用的过程中实现了所有权或使用权的转移,转让方失去,受让方获得,这种交换和转移遵循一定的原则,如等价交换原则等。而信息却具有可共享性。同一内容的信息可以在同一时间或不同时间为两个或两个以上的信宿获得、使用。在传递、交换信息的过程中,受让方获得了信息,而转让方并没有失去信息。可共享性是信息区别于物质和能量的重要特征。当然,不同信息的共享范围是不同的,而且信息的共享往往是有条件的,在特定的条件下,对于特定的信息并不实行共享。但是,这些并不否定信息具有可共享性。6

(二) 数据的属性

1. 数据与物质的区别

数据不同于一般的物质而存在,从数据与物质的区别来说,可以归纳出如下三种属性。7

一是可标识性。自然界中的物质,一个是一个,所谓相同的两个东西是指同质化的两个东西。例如,面对两杯水,可以说“相同的两杯水”。而对于数据,一个数据的存在和两个相同数据的存在是一样的,“两个相同的数据”的说法意义不大,“两个相同的数据”是表示自然界的一个事物,即一个数据,一般采用“一个数据的两个复本”的说法。关于数据,讨论数据的相似性比讨论数据的相同性更有意义,相似性由相似性函数来定义,可以说“两个相似的数据”。数据的这种特性说明数据是面向值的,即如果两个数据对象有相同的值,则认为它们是一个对象的两个复本。

二是可共享性。共享是指共同分享,在物理世界中主要是指某样东西被多个人分享。例如,“共享午餐”是指共享者一起吃午餐,但其实每个共享者吃的东西并不一样,同样的东西不可能被吃进两个人的肚子里。数据共享的概念与之有着本质上的不同,数据共享是指同样的数据被多个共享者所拥有,并且每个拥有者拥有完全一样的数据量、数据形式和数据内容,即拥有数据的复本。将一个数据随意复制多个复本是轻而易举的事情,因此,数据是可以共享的,并且拥有数据的人也常常愿意将其拥有的数据拿出来共享。

三是生命周期性。自然界中的物质会老化,有生命周期,而数据不会老化,没有生命周期。数据就其被生产、存储、修改、删除这些过程而言是有生命周期的,但这是该数据在现实中对应的事物的生命周期,不是计算机系统中数据的生命周期。一个数据本身不会随时间的推移而变老变旧。例如,将一张照片数据存放多少年以后,只要载体还存在或者不断替换新载体,这个数据对象本身并不会发生变化,数据不会减少,其质量也不会下降。

2. 数据自然界

数据及其衍生物能够构成一个数据自然界。在数据自然界中,可以归纳出以下三种属性。

一是不可控性。今天,数据呈爆炸式增长,人们已经无法控制它。除此之外,还有大量计算机病毒出现和传播、垃圾邮件泛滥、网络攻击频繁、数据阻塞信息高速公路等,这些都使得人们无法控制数据。

现在的日常生活中,人们在不断生产数据,不但使用计算机生产数据,而且使用各种电子设备生产数据。例如,照相、拍电影、出版图书、刊印报纸等都已经数字化了,这些工作都是在生产数据;又如,拍X光片、做CT检查、做各种实验等也都是在生产数据;再如,人们出行坐车、上班考勤、购物刷卡等也都是在生产数据;不仅如此,像计算机病毒这类数据还能不断快速大规模地生产新数据,这种大规模随时随地生产数据的情形是任何政府和组织都无法控制的。虽然从个体来看,其生产数据是有目的的,是可以控制的,但从总体来看,数据的生产是不以人的意志为转移的,它是以自然的方式增长的。因此,数据已经不为人类所控制。

二是未知性。在计算机系统中出现大量未知数据是数据自然界形成的基础。未知性体现在:不知道从互联网获得的数据是否正确和真实;在两个网站搜索相同的目标,得到的结果不知道哪个正确;也许网络中某个数据库早已显示人类将面临能源危机,但无法得到这样的知识。

早期使用计算机是将已知的事情交给计算机去完成,将已知的数据存储到计算机中,将已知的算法写成计算机程序。数据、程序和程序执行的结果都是已知的或可预期的。事实上,当时计算机主要用于助力人们的工作和生活,提高人们的工作效率和生活质量。因此,计算机所做的事情和生产的数据都是清楚的。

随着设备和仪器的电子化进程加快,各种设备都在生产数据,于是大量并不清楚的数据被生产出来并被存入计算机系统。例如,自从人类基因组计划开始后,海量的DNA数据被存储到计算机系统中,这些数据是通过DNA测序仪器检测出来的,是各种生命的DNA序列数据。虽然人们将DNA序列放入计算机中,但人们在将它们存入计算机时并不了解DNA序列数据表达的是什么,有什么规律,是什么基因片段使得人们相同或不同,物种及其基因如何变化,物种基因是否有进化或突变,等等。

虽然每个人只是将个人已知的事物存储到计算机系统中,但是,当一个组织、一个城市或一个国家的成员都将个人工作和生活的事物存储到计算机系统时,数据将反映这个组织、这个城市或这个国家整体的状况,包括国民经济与社会发展的各种规律和问题,这些事情是事先不知道的,即信息化工作将社会经济规律这些未知的东西也存储到计算机中。

在新型的数字产品方面,数据更是未知的。例如,电子游戏创造了一个全新的世界,这个世界的所有场景角色都是虚拟的,甚至有虚拟的货币。这些虚拟世界的事物又通过游戏玩家与现实世界联系在一起。因此,游戏世界表现出的和其内在的东西在现实世界中是没有的,是未知的。

三是多样性和复杂性。伴随着数据爆炸,越来越多的数据被存储到计算机系统中,数据的类别和数据的形式有很多种,因此计算机系统中的数据是多样的和复杂的。

数据的多样性是指数据有各种类别,如语言的、行业的、空间的、海洋的、DNA等,也有在互联网中或不在互联网中的、公开或非公开的、企业的或政府的。数据的复杂性是指数据具有各种各样的格式,包括专用格式和通用格式,并且数据之间存在着复杂的关联性。

(1) 数据类别

数据主要有以下类别:

①私人数据库。这是指存储在个人计算机系统中的数据库,包括个人隐私数据和个人工作数据。个人工作数据内容涉及繁多,可以是工作单位的数据、个人因工作需要收集的数据和因其他需要获得的数据等。而另一类个人数据常被忽视,即散落在互联网的个人隐私数据。

② 企业数据库。包括企业生产经营数据、客户数据、竞争对手数据、行业数据等,这些数据主要存储在企业的计算机系统中。

③ 政府数据库。这是指存储在政府计算机系统中的数据库。

④ 公共数据库。这主要是指存储在公共网站上的数据。这些数据能够通过搜索引擎访问。

(2) 数据的组织形式

数据的组织形式主要有:

①专用格式数据。有相当多的数据由专用数字化设备产生,如医学影像数据(X光、B超、CT等) ,还有GIS、多媒体等数据。这些数据的处理需要专门的设备或专门的软件。

② 通用格式数据。在信息化早期,大多数数据被存储在通用数据库中,由通用的数据库管理系统 (如Oracle、DB2等) 来管理。这些数据库结构清晰,处理方便。

③ 互联网数据。互联网上的数据,其门类和格式繁多,还包括很多数据垃圾、病毒。由于互联网数据的形成,计算机系统中的数据更加显现出自然界的一些特征。

3. 数据的体量

从数据的体量来看,可以归纳出四种属性。

一是规模性。这主要体现在两个维度:样本容量大,样本容量大大超过解释变量的数目,这称为“高大数据”;变量数量多,解释变量的数量超过样本容量的数量,这称为“庞大数据”,是一种高维或超高维数据。这两种数据既给计量经济建模提供了很大的灵活性,也带来了“维度灾难” (Curse of Dimensionality)的挑战。

二是多样性。这是指大数据既有结构化数据,又有非结构化数据。非结构化数据提供了传统数据所没有的丰富信息,极大地拓展了经济学研究的边界与范围。

三是高速性。这是指高频数据甚至实时数据的可获得性。

四是准确性。这是指大数据容量很大,噪声可能很大,因此信息密度较低,这使得统计学的一些基本原理如充分性原理和降维原则,在总结、提取数据信息时就显得非常有用。同时,由于大数据结构复杂、形式多样,信号噪声通常比较大,传统的统计充分性原理和降维原则需要有所创新与发展。

4. 新型生产要素

数据已被作为一种新型生产要素,从这个角度来看,可以归纳出四种属性。

一是非排他性。非排他性即非独占性,即可复制、可共享、可交换、可多方同时使用,共享增值。

二是非竞争性。非竞争性即开发成本高,在动态使用中发挥价值,边际成本递减。

三是非稀缺性。非稀缺性即万物数据化,快速海量积累,总量趋近无限,具有自我繁衍性。

四是非耗竭性。非耗竭性即可重复使用、可组合、可再生,在合理运维情况下可永远使用。

1 杨学山.论信息[M].北京:电子工业出版社,2016.

2 王知津,戴玮洁.论信息的主观性与客观性[J].图书馆学刊,2013,35(6):1-5.

3 于国艺,黄建乡,马伟平.信息载体演变与编辑出版活动的历史关系[J].青岛科技大学学报(社会科学版),2007,1:112-115.

4 邬焜.试论人的信息活动的层次[J].西安石油学院学报(社会科学版),2000,2:54-60.

5 闫学杉.信息科学:概念、体系与展望[M].北京:科学出版社,2016.

6 邹志仁.信息学概论[M].2版.南京:南京大学出版社,2007.

7 朱扬勇,熊赟.数据学[M].上海:复旦大学出版社,2009.