第一章 数据信息

一、数据和信息的定义

21世纪以来,数字经济飞速发展,大数据的浪潮席卷全球,包括我国在内的很多国家都将大数据上升到国家战略的高度。数据已经成为新时代的生产要素,基于数据的建模以及数据挖掘已经成为所有企业的必修课。数据思维也随着数据的广泛使用而被大众认可,它作为一种新的思维,旨在对数据要素进行加工,从中挖掘出有价值的信息来指导决策,是一种全新的思考问题、分析问题、解决问题的方式。数据思维的本质是:数据要素蕴含大量关于实体经济的信息,利用信息能有效提升经济生产效率。由此,信息是数据产生价值的本质原因,如果从数据中挖掘不出信息,那么数据就缺乏价值。

在日常生活中,信息、数据要素相关概念也被广泛讨论,比如信息技术、大数据杀熟、数据库等。移动网络的发展也使数据和信息传播更加便利,数据和信息总量正在呈几何式增长。但同时,人们对数据和信息往往只有一个偏感性的认知,对其缺乏较为严格的定义。在DIKW层次结构模型下,数据—信息—知识—智慧形成价值链条,数据通过解释成为信息,二者关系十分密切。从概念的抽象程度来看,数据的概念容易与客体对应,而信息、知识则较为抽象,且概念间的边界比较模糊。在很多情况下,数据和信息的概念可以互换使用,且无须担心产生歧义。这从侧面说明数据与信息的关系是较为复杂的,学术界对它们的性质、意义也存在争议,在不同的学科与专业中,数据与信息的含义也有所不同。因此,为了在数字经济中建立数据、信息的完整理论体系,厘清数据与信息间的关系是很重要的。

本章第一部分将系统地梳理信息与数据在相关文献中的定义,第二部分对信息和数据的属性进行介绍,第三部分对信息和数据之间的关系进行进一步探讨,最后从数据和信息的管理的角度对本章内容做出总结。

(一) 数据的定义

一般而言,数据作为新的生产要素,是数字经济价值链的基础。在《现代汉语词典(第7版) 》中,“数据”一词的含义是进行各种统计、计算、科学研究或技术设计等所依据的数值。在英语中,“ Data” (数据)这个单词的出现可以追溯到17世纪40年代。1946年,约翰·冯·诺依曼(John von Neumann)领导的研究小组正式提出,在计算机运行时把程序和数据一样存放在内存中,这是数据首次被用来表示“信息的传递和储存”;“数据处理”(Data Processing)则是在1954年首次被使用。在Oxford English Dictionary中,“ Data”的含义为由计算机或其他自动设备操作的数量、字符或符号,可以以电子信号等形式存储或传输。 《信息技术词汇第1部分:基本术语》 (GB/T 5271.1—2000)对数据的定义是:信息的可再解释的形式化表示,以适用于通信、解释或处理。通过上述定义,我们能对数据有一个直观的认识。但上述定义缺乏对数据与信息概念的对比,很难据此为数据和信息划定边界。近些年来,一些学者也致力于对信息和数据的概念进行比较,下面将对相关文献中的观点进行总结与分析。

科克等人1认为,数据是知识和信息的载体,是一种可以存储和传递知识和信息的方法。信息和知识都要借助数据这一载体进行通信,而通信过程会涉及数据存储(如硬盘、纸质介质)和传输设备(如无线电、光纤)。从这个意义上说,一条数据只有在被其接收方理解或解释时才会成为信息或知识。从另一个角度来看,只有在自己拥有的信息和知识被编码为数据之后,一个人才能与另一个人交流。信息具有描述性的内容,其与过去有关,与此形成对比的是,知识与当前的状况有关,具有显著的预测性。基于大量信息形成的知识可以在一定的准确性下预测将来。从这个角度来看,“铝冶炼厂的温度已设定为300摄氏度”这样的陈述传达了信息,而“如果铝冶炼厂的温度设定为1000摄氏度,那么该冶炼厂中的所有铝将在30分钟内熔炼”的陈述传达了知识。由于知识和信息的真实性是相对的,因此信息和知识在这个层面上与正确性不绝对相关。

阿莫特和尼高2在决策过程中对数据和信息的定义进行了剖析。他们认为数据是语法实体——是没有意义的模式;数据是理解、解释事物这一过程的输入,也就是决策的最初步骤。而信息是被解释的数据——是有意义的数据;信息既是数据解释的输出,也是基于知识的决策过程的输入和输出。对于一个决策系统或者人来说,数据和信息之间的一个明显区别是:数据是未解释的字符、信号、模式、符号,即它们对相关的系统没有意义。数据在被解释之后就变成了信息,为了将数据解释为信息,系统也需要知识。例如,“′Q) 9§? 8$%@∗¨&/”可能是传感器发出的一系列信号,但对大多数人来说只是数据,因为人们无法理解其含义。而“通货膨胀率”“血压下降”“古巴导弹危机”等数据则具有意义,因此是信息。这些术语的含义对不同的人可能是不同的,而正是特定领域——乃至整个世界——的知识使人们能够从这些数据串中获得意义。

达文波特和普鲁萨克3认为,数据是关于事件的一组离散的、客观的事实。在语境中,数据可以准确地以定量的方式描述对象。比如,当一位顾客去加油站时,这笔交易可以利用数据来辅助描述:何时购买;买了多少公升;付了多少钱。数据在其中只起到精准描述的作用,它不能独立存在,只能将事情描述得更准确。就其本身而言,这些事实并不能说明加油站的运行状况。彼得·德鲁克(Peter F. Drucker)曾经说过,信息是被赋予了相关性和目的性的数据。这也暗示了数据本身没有相关性和目的性。

图奥米4认为,数据通常是可以用来构建信息的事实。数据出现在人们拥有信息之后,而信息出现在人们拥有关于事物的知识之后。数据之所以最后出现,是因为数据需要人们明白相关信息,进而才能处理或生成。例如,当信息存储在计算机的数据库时,人们需要明白数据库条目的含义,才能创造和读取数据。

博齐等人5认为,数据是离散、客观的事实或观察结果,如果没有经过组织和处理就没有任何特定的含义。

劳东6认为,数据、信息和知识这三个概念在很多场景可以相互替代,但是在知识管理领域中有较为细致的区别。他认为信息是对世界状态的简单观察。

计算机视觉是近年来的热门研究问题,陈敏等人7从计算机视觉技术的角度入手,分析了数据和信息的区别。在数字时代,数据、信息与知识存在于人类的感知空间中,也可以被计算机储存。这意味着在这两个空间中,三者是并存的,所以陈敏等人认为需要在这两个空间中区分数据、信息和知识的定义。在人类的感知与认识空间中,数据就是符号;而信息是经过处理的有用数据,能为“是谁”“是什么”“在哪里”和“什么时候”之类的问题提供答案。在计算空间(计算机储存)中,数据就是真实或模拟对象和各类模型的可计算化表示;而信息则是展现计算过程的结果的数据(如在统计分析中展现的数据,这些数据都具有人类能够直接理解的实际意义),或者是拥有人类分配的某种意义的文本。

数据、信息和知识是信息科学的基础。数据、信息和知识的系统概念对于信息科学系统的发展以及该领域知识图谱的构建至关重要。 2007年,在“信息科学的知识图谱”研究中,由来自16个国家的57位顶尖学者组成的国际专家小组对数据和信息的定义进行了讨论。以下是数据的众多其他定义方式,现将其一并列出。8

数据和信息的定义

(1) 在计算系统中,数据是被编码的不变的量。在人类的视角中,数据是人类的陈述或实证研究的记录。信息的意义则和人的意图息息相关。比如在计算系统中,信息是数据库、网页等展现的内容;在人类的交流中,信息是言语和文字的含义,因为传递者和接收者将信息赋予言语。

(2) 数据是固定在介质中/上的概念或对象的一种表示形式,以满足人类或自动化系统的通信、解释、处理需求。信息可以是在通信过程中发送者用来表示一个或多个概念的消息,旨在增加接收者的知识;也可以是记录在文档文本中的消息。

(3) 数据是经过量化或限定的符号集。信息是一组可以创造知识的信号,常常发生在通信过程之中。

(4) 数据是人们感知到的感觉刺激。信息是已经处理成对接收者有意义的形式的数据。

(5) 数据是一切可以增加人类任意形式知识的对象,并且这些对象可以通过文字或语言被记录。数据可以在人们的脑海中唤起信息和知识。信息会随着个人已有的认知而变化。信息总在一个认知体系或主题下产生,如:构成文档或书籍的单词和符号不是信息,但当这些标志被人类解读时,就会产生知识。

(6) 数据一词通常指代计算机内的编码与记录,但更广泛地指称统计的观察、其他记录和证据集合。信息一词指代许多不同的现象,主要分为三类:感知到的任何有象征意义的事物(如书籍);告知内容的过程;从一些证据和交流中获悉的事物。这些都是“信息”一词在英语中的正确用法。

(7) 数据是通过观察而获得的单一数字或事物,但就其本身而言,如果没有上下文,它们无法代表信息。信息是指通过数据和组合数据的上下文传达的内容,并可以进行分析和解释。

(8) 数据是根据已有规则组织的符号。信息代表意识和物理上表现的状态。

(9) 原始数据(有时称为源数据或原子数据)是尚未经过处理以供使用的数据,“未处理”可以理解为没有做出任何努力来解释或理解数据。数据是某些观察或测量过程的结果,被认为是“世界事实”。信息是数据处理的最终产物。

(10) 数据是与实体相关的一些内容。信息是与实体相关的数据的综合。

(11) 数据是代表对原始事实的理解的一组符号(可以从中推论或得出结论的事件)。信息是有组织的数据(可以回答以下基本问题:什么? 谁? 什么时候? 在哪里?) 。

(12) 数据可以被定义为一类信息对象,主要由二进制编码单元组成,以便计算机存储、处理、传输。比如,二进制代码形式的数据不可能立即对人类有意义,但如果人们适当地收集和处理数据单元,它们就可以成为“信息构建块”,进一步可以成为信息,对人类更有意义。对人类有意义的数据组合可以称作信息。但信息还有其他形式(自然的、文化的),不能完全格式化为计算机和相关技术可以传输、处理的数据。

(13) 数据的定义取决于每个人的知识体系。康德学派认为数据是理解先验类别的基础;计算机程序员认为数据是预处理信息(出于某种目的,根据某种算法收集的数据)或后处理信息(是某类信息矩阵,在这种情况下,无法定义除信息之外的数据,因为它依赖于信息);生物学家则可能认为数据就是刺激。信息则是对信息搜寻者有用或相关的资源。

(14) 数据是现实世界事实的表示。信息是在一定主题系统下组织的数据,可以用于交流。

(15) 数据是与自然世界现象相关的最小可收集单位。数据通常出现在针对现实现象所观察收集的事物集合中。数据本身不具有正确性,人们往往可能没有针对当前问题来正确收集、定义数据。信息是对数据的某种抽象。信息并不是天生就意味着对数据进行分析。信息也并不是如所预期的那样,能对数据进行正确的解释。

(16) 数据是科学家和其他人收集的关于世界的原始观测结果,具有最小意义上的上下文解释。信息是对世界进行连贯观察的数据汇总。

(17) 数据是人类对一些对象(例如手工制品、种子、骨骼)及其相关环境进行的观察和测量。数据的定义是与理论紧密相关的,一般来说,什么被视为数据取决于一个人所认同的世界观。本尼·卡尔帕特肖夫(Benny Karpatschof)从能量的角度定义信息:一个给定信号在某种机制和系统中的相对质量。

(18) 数据是最小单位的事实,是世界中“真相”的基本组成元素,它与人们对于外界的感知直接相关。数据没有对事件进行进一步解释和承接事件前因后果的功能。信息是在数据构成的“事实”集合中添加了“处理能力”的集合,从而能对事实集合做进一步解释。这样的处理能力一般代表上下文联系(数据的背景),事实相互间的关系等能运用数据的信息,这意味着信息是被赋予了进一步意义的数据。

(19) 数据是信息编码后的常规表示形式(例如ASCII,编码方式通常因行业而异)。信息是在时间、空间辅助下记录的知识。

(20) 数据是社会文化信息的一种固定形式的记录(数字化内容),从而计算设备可以忽略产生数据的认知过程对其进行处理。也正因如此,需要从外部给数据赋予一定的意义(标注数据的属性)。信息是系统内部结构与其实际运行方式之间的关系。

(21) 数据是可感知的物理、生物、社会等概念实体的属性(当这些信号可以被人类所探查时)。信息是被记录下来的,并且可以进一步组织和交互的数据。

(22) 数据是以原始形式呈现的字母、符号、数字、音频字节、视频字节的集合。从根本上说,人们需要凭借知识对数据进行转码,进而将其转变为信息。信息是事实,是图片和其他形式的有意义的表示。这些表示呈现给人类时,可以增强人类对主题或相关主题的理解。

(23) 数据是信息的原始资料,通常以数字的形式呈现。信息是与评论、背景、分析等对人有意义的内容一起收集的数据。

(24) 数据是主体感知到的对象或简单事实,在主体的意识中未经过重构或阐释,也没有经历进一步的分析。信息是在一定的历史、文化和社会背景下,从知识中产生并被整合、分析和解释,从而实现有意义的消息传递,是社会中人类认知变化的现象。

(25) 数据是原始的符号实体,其含义取决于上下文环境,从而通过一定的解读方式产生意义。信息是消息传递者以一

定方式组合的数据,从而影响消息接收者的认知状态。

(26) 数据是固定形式化表示的事实和观点,人们能够通过一定方式进行交流和修改。因此,数据通常与事实和机器有关。信息是人类通过一些已知的约定,为相应的数据赋予的含义。由此,信息的意义和人类有关。

(27) 数据是可以重复测量的、可以量化的事实。信息是不同数据的有组织的集合。

(28) 数据是原始的事实,没有经过处理,但有被进行处理的可能性,从而产生知识。信息是知情的过程;它取决于知识,同样也是处理后的数据。

(29) 数据是观察或测量结果的事实。信息是有意义的数据,或是通过一定方式解释、组织,进而产生意义的数据。

(30) 数据是以数字、事实、图片等形式反映自然与社会世界中各种现象的人类产物。信息是生物之间交流的任何对象。它和能源、材料是生命生存和进化的三大支柱。

徐晋认为,“数据是指对信息的数字化解构” 。笼统地说,数据是使用约定俗成的字符,对客观事物的数量、属性、位置及相互关系进行抽象表示,以适合在这个领域中用人工或自然的方式进行保存、传递和处理。9 而约定俗成的标准在不同的时间和空间中会有变化,这意味着不同的种族、不同的宗教、不同的文化以及不同的国家,对客观世界的标准和符号的描述会产生差异。这是产生信息不对称的根本原因,所以不同环境下的主体在描述同一客体时,会出现不同的数据。例如,中国古代通过月亮的变化理解时间,而西方则通过太阳的变化理解时间。

(二) 信息的定义

20世纪30—40年代,因为近现代科学家对信息的定义和属性(信息量)的摸索,人们对信息有了比较深刻的认识,一些著名科学家围绕信息和反馈进行了大量的研究。

人类通过获取、识别自然界和社会的不同信息来区别不同的事物,从而得以认识和改造世界。在一切通信和控制系统中,信息是一种普遍联系的形式。

1. 香农的信息熵

1948年,数学家克劳德·香农(Claude E. Shannon)在题为《通信的数学理论》的论文中指出:“信息是用来消除随机不确定性的东西。”10创建宇宙万物的最基本单位是信息。香农还将信息和不确定性联系起来,认为对事物信息量的度量等价于对事物不确定性的度量,并基于此提出了信息熵的公式:

2. 费希尔信息

英国统计学家罗纳德·费希尔(Ronald Fisher)从古典统计理论的角度研究了信息理论,提出了单位信息量的概念。

费希尔信息是衡量观测所得到的随机变量X携带的关于未知参数θ的信息量。假设随机变量X服从一个已知的概率分布 ,有

其中为X关于参数θ的对数似然函数。

如果(对数)似然函数的一阶导数接近0,则为意料之中的事,即样本没有带来太多关于参数θ的信息;但如果似然函数的一阶导数的平方很大,那么样本就提供了比较多的参数θ的信息。所以费希尔对随机变量X的费希尔信息定义为

美国应用数学家诺伯特·维纳从控制的观点研究有噪声信号的处理问题,建立了“维纳滤波理论”,并提出了信息的概念。维纳认为“信息就是信息,既非物质,也非能量”;“信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行交换的内容和名称”。11 同样是在控制论中,谢尔盖·索博列夫认为“信息是物质过程之间的一种特殊类型的关系。归根结底,信息并不是什么别的东西,它不过是物质的一种属性”12

3. 波普尔的“三个世界”理论

在哲学领域,波普尔在《没有认识主体的认识论》一文中首次提出并系统阐释了著名的多元本体论体系——“三个世界”理论。13(见图1-1)

图1-1 波普尔的“三个世界”

“世界1”指的是能够通过自然科学解释状态和过程的领域。包括我们试图用物理、化学以及生物学来解释的状态和过程,也包括那些随后伴随着生命出现的状态和过程。

“世界2”指的是心理状态和过程的领域。包括所有动物和人类的感受和思想,以及有意识和无意识的精神状态和过程。

“世界3”指的是思想的产物的领域。在波普尔看来,世界3的“物体”包含了非常广泛的实体,从科学理论到艺术作品,从法律到制度。概括地说,就是人类的信息世界、知识世界。波普尔认为,“世界3” ,即人类思想的产物的世界,并不直接对“世界1”即客观自然界产生影响,而是通过影响“世界2”即精神世界,再作用于“世界1” 。

波普尔的“世界3”不仅包含处理人与自然关系的自然科学知识,还包含处理人与人之间、人与群体之间关系的社会文化知识。当然,信息也存在于这个世界中,人类也是从信息中升华出知识的。总的来说,人类的一切行为都是由个体产生的,但人类文明的成果,则全部体现在“世界3”,即人类思想的产物的世界之中。

传统意义上,物理世界的对象可分为物质、能量和信息。物理学家们经过不懈努力,发现并证明了物质与能量之间可以相互转换,而信息则以物质或能量为载体。 “世界1”可以被认为是物质与能量的世界。 “世界1”中的物质带有大量的信息,包括物质存在的形态也展现出丰富的“自在信息”,如山川河流的形状、位置等,还有大量的人类活动形成的人工信息,如书籍、雕塑、建筑等。人们忽略“世界1”中的自在信息(尽管这些信息对人类而言非常有意义,但不是人类创造的),而只将物质或能量所展示出来的人造的“再生信息”归到“世界3”之中。这样,“世界3”就是依附于“世界1”的纯粹的人造信息世界。 “世界1”中的“自在信息” ,经由“世界2”的意识加工后,以新的方式呈现在“世界1”中,也就归属于“世界3” ,比如摄影作品。

波普尔的“三个世界”的观点,体现了知识与信息的客观性。在他看来,知识的客观性等同于信息的客观性。尽管人们无法证明“真理”是客观的,但那些呈现在图书馆里的书上的字所内含的信息所构成的世界3却是客观的。

4. 钟义信对信息的定义与辨析

中国学者钟义信认为,信息泛指以任何形式表现的事物运动的状态和方式,包括它的内部结构的状态和方式,以及外部联系的状态和方式。14

其中,“事物”是指一切可能的对象或系统,既可以是自然界和人类社会中的各种物质客体,也可以是思维领域的精神现象。“运动”既可以是物体在空间中的位移,也可以是任何形式和任何意义上的变化。“运动状态”是指事物运动中呈现的相对稳定的情形,在某种意义上也可以说是静态的情形,而“运动方式”则是指运动过程中状态转变的情形,在某种意义上也可以说是动态的情形。换句话说,“运动状态”是指事物在空间上的展布,而“运动方式”则是这些事物在时间上的行为或是变化的规律。

本体论意义上的信息是纯“客观”的,与观察者的因素无关;而认识论意义上的信息定义则必须有观察者,而且必须从观察者的角度来看问题。也许,从实用的观点来看,人们会认为认识论意义上的信息定义才有用,不考虑人(观察者)的信息定义是没有意义的。不过,这只是问题的一方面。从全面的观点来看,应当承认,本体论意义上的信息定义更为根本,认识论意义上的信息定义是在这个基础上引申的。实际上,这两者相互依存,相互联系,不可分割。

首先,从认识过程的角度来考虑,必须区分实在信息、先验信息和实得信息。实在信息是指事物本身实际存在的信息;先验信息是指在观察(试验)之前,观察者已经具有的关于该事物的信息;实得信息则是指在观察过程中,观察者实际所得到的关于该事物的信息。如果用符号X来表示某个事物,R表示观察者,I(X)表示事物X的实在信息量,I0(X;R)表示观察者R关于事物X的先验信息量,I(X;R)表示观察者R关于事物X的实得信息量,那么在理想观察情况下:

显然,实在信息只与事物本身的情形有关,而先验信息和实得信息则不仅与事物本身的情形有关,而且与观察者的主观因素有关。因此,在研究认识论意义上的信息问题时,必须分清讨论的是哪一种信息,不能把这些不同的信息概念混为一谈。

其次,引入观察者的因素以后,还必须区分语法信息、语义信息和语用信息。语法信息是关于事物运动状态和方式的形式化关系(类似于语言学的语法)方面的广义化知识;语义信息是关于事物运动状态和方式的逻辑含义(类似于语言学的语义)方面的广义化知识;语用信息则是关于事物运动状态和方式对于观察者而言的效用(类似于语言学的语用)方面的广义化知识。

显然,对于观察者来说,信息的语法、语义和语用呈现为三位一体的关系:任何事物的运动状态和运动方式都具有一定的形式上的关系,也具有一定的逻辑含义,因而对于一定的观察者而言必然具有某种程度(正、负、无)的效用。不过,在这三者中,语法信息是最基本也是最抽象的层次,语用信息是最丰富也是最具体的层次,语义信息则介于这两者之间。要从认识论的意义上来研究信息问题,一定要分清这些不同的层次。否则,笼而统之,就必然会导致混乱和误解。

钟义信也针对不同的信息定义方式,对一些定义给出了辨析。

《现代汉语词典(第5版)》中给出的信息定义是:信息论中的信息是指用符号传送的报道,报道的内容是接收符号者预先不知道的。它属于实得的语义信息。

“信息是用来消除随机不确定性的东西”15;“信息是使概率分布发生变动的东西”16。这些定义属于实得的概率性语法信息:收到了这种信息,就消除了随机型不定性,也就是使概率分布发生了变动。

“信息就是负熵”17;“信息就是有序性” ,“信息是系统组织性”18。这些定义涉及概率性语法信息的概念,因为这里所说的熵是概率的泛函,是随机型不定性的度量,而有序性和组织性都是以负熵来度量的。

“信息是被反映的事物的属性”19;“信息是被反映的差异” ;“信息是被反映的变异度”。这些说法的共同特点是都有“被反映的”这一限制词。在这里,“被反映”意味着“实际获得”或“实际感知”。因此,这些都是实得信息的概念。

5. 其他学者对信息的定义与辨析

郭金彬认为,只有通过人的意识才能获得新内容、新知识,从不确定性过渡到确定性,才能得到信息,也就是说把握到了关系。20 闵家胤从进化论的多元论来定义信息,认为它是通信系统中信宿收到而信源并未失去的某种东西,它消除了信宿相对于信源的存在、属性和动态的某种不确定性。21

达文波特和普鲁萨克认为信息通常以文档或可听可视的形式传达,它有发送者和接收者。信息旨在改变接收者对事物的感知方式,从而影响其判断和行为。22

徐晋认为,数据是知识与信息层次的中间层,而且信息一定是从数据中挖掘的,但又高于数据。像3秒、58米、4000吨,或者大楼、桥梁这些名词之间是缺乏联系的、孤立的。只有当这些数据被用来描述一个客观事物及客观事物的关系,形成有逻辑关系的数据结构时,它们才能被称为信息。23

显然,信息除了自然属性或者社会属性,还包括价值判断,特别是社会价值判断。只有具备了属性或价值判断,这些描述性名词才可以被称为信息,否则就只是数据或者没有意义的符号。因此,信息是指对事物的价值判断与属性描述。例如,1.75米如果作为一个正方形的边长,在计算正方形面积时,它就是个数据;同样是1.75米,如果用来描述一个约会对象的身高,那么传递出来的就是信息。

查菲和伍德认为信息是能更好地理解事物的数据。24 阿瓦德和加齐里认为信息是可以让决策变得容易的数据集合。25 杰瑟普和瓦拉西奇认为,信息是增加被理解对象价值的数据。26 劳东认为信息是具有相关性和目的性的数据。人们将数据组织成某种分析对象,以此将数据转换为信息。例如,将数据定义为位置坐标,使用数据标定此位置上的住房价格,人们就能从数据中得到事物的信息。27

前文已经列举过在“信息科学的知识图谱”研究中不同学者对信息的定义,在此不再赘述。28

总体来说,信息、数据概念的边界是比较模糊不清的,二者的区分通常取决于人的主观判断。学者们也分别从哲学、信息科学的角度来看待这一问题。信息与数据的关系与“鸡与蛋”的关系有类似之处:人类最初从自然界获取信息,进而意识到需要通过某种手段把信息记录下来,随着数学、计算技术的发展,数据成了信息的重要记录方式,数据也能让更多的人获取到信息。数据需要基于信息创造,是信息的记录方式,这样更多的人可以从数据中获取信息,二者是相互依存、相互转化的关系。

1 Kock N F,Mcqueen R J,Corner J L.The nature of data,information and knowledge ex-changes in business processes:implications for process improvement and organizational learning[J]. The learning organization,1997,4(2):70-80.

2 Aamodt A,Nygård M. Different roles and mutual dependencies of data,information,and knowledge: an AI perspective on their integration[J].Data&knowledge engineering,1995,16(3):191-222.

3 Davenport T H, Prusak L. Working knowledge: how organizations manage what they know[ M] .Boston:Harvard Business School Press,1998.

4 Tuomi,I.Data is more than knowledge:implications of the reversed knowledge hierarchy for knowledge management and organizational memory[ J].Journal of management information sys-tems,199,16(3):103-117.

5 Bocij P,Chaffey D,Greasley A,et al.Business information systems:technology,develop-ment and management for the e-business [ M] . 3rd ed. Upper Saddle River: Financial Times/Prentice Hall.

6 Laudon K C.Management information systems:managing the digital firm[M].10th ed.New York:Pearson Education,2007.

7 Chen M,Ebert D,Hagen H,et al.Data,information,and knowledge in visualization[ J]. IEEE computer graphics and applications,2009,29(1):12-19.

8 Zins C.Conceptual approaches for defining data,information,and knowledge[J].Journal of the American society for information science and technology,2007,51(4):479-493.

9 徐晋.大数据经济学[M].上海:上海交通大学出版社,2014.

10 Shannon C E.A mathematical theory of communication[J].Bell system technical journal, 1948,27(3):379-423.

11 Wiener N.Cybernetics or control and communication in the animal and the machine[M]. Reprint.Cambridge: The MIT Press,2019.

12 Sobolev S L,Kitov A I,Lyapunov A A.Basic features of cybernetics[J].Voprosy filosofii (Problems of philosophy),1955,4:136-147.

13 Popper K R.没有认识主体的认识论[J].邱仁宗,译.世界科学译刊,1980,2:47-55.

14 钟义信.信息科学原理[M].5版.北京:北京邮电大学出版社,2013.

15 Shannon C E.A mathematical theory of communication[J].Bell system technical journal, 1948,27(3):379-423.

16 Tribus M,McIrvine E C.Energy and information[ J].Scientific American,1971,225(3):179-190.

17 Brillouin L.Science and information theory[M].2nd ed.New York:Academic Press INC., 1962.

18 Wiener N.The human use of human beings:cybernetics and society[M].Boston:Houghton Milfflin,1950.

19 刘长林.论信息的哲学本性[J].中国社会科学,1985,2:103-118.

20 郭金彬.信息的本质是什么? [J].福建论坛,1982,4:12-14.

21 闵家胤.信息:定义、起源和进化[J].系统辩证学学报,1997,3:18-22.

22 Davenport T H, Prusak L. Working knowledge: how organizations manage what they know[ M] .Boston:Harvard Business School Press,1998.

23 徐晋.大数据经济学[M].上海:上海交通大学出版社,2014.

24 Chaffey D,Wood S.Business information management:improving performance using infor-mation systems[M].Upper Saddle River :Financial Times/Prentice Hall,2004.

25 Awad E M,Ghaziri H M.Knowledge management[M].Upper Saddle River:Prentice Hall, 2004.

26 Jessup L M,Valacich J S.Information Systems Today[M].Upper Saddle River :Prentice Hall,2002.

27 Laudon K C.Management information systems:managing the digital firm[M].10th ed.New York:Pearson Education,2007.

28 Zins C.Conceptual approaches for defining data,information,and knowledge[J].Journal of the American society for information science and technology,2007,51(4):479-493.