- 中华医学影像技术学:影像信息与人工智能技术卷
- 刘景鑫 周学军主编
- 13字
- 2025-03-18 22:20:27
第三章 医学影像信息检索技术
第一节 计算机信息检索概述
一、计算机信息检索理论基础
利用计算机检索信息是专业人员不可或缺的一项基本技能。在当今这个大数据时代,一个善于从计算机网络中查找出所需信息的人,将获取更多的成功机会。
(一)计算机信息检索的概念
计算机信息检索(computer information retrieval)是利用计算机系统有效存储和快速查找的能力发展起来的一种计算机应用技术,与信息的构造、分析、组织、存储和传播有关。计算机信息检索系统是信息检索所用的硬件资源、系统软件和检索软件的总和。它能存储大量的信息,并对信息条目(有特定逻辑含义的基本信息单位)进行分类、编目或编制索引。它可以根据用户要求从已存储的信息集合中抽取出特定的信息,并提供插入、修改和删除某些信息的能力。
信息检索有广义和狭义之分。狭义的信息检索是指信息的获取过程,即根据用户的特定要求查找所需信息的过程。广义的信息检索包括信息存储和信息获取两个过程。信息存储指通过对大量无序信息的选择和收集、注录和标引等处理,建成各种信息检索工具或信息检索系统,使之成为有序化信息集合的过程;信息获取就是根据特定的需求,运用已组织好的检索系统,将特定的信息查找出来。
(二)计算机检索系统的构成
计算机检索系统的构成包括硬件、软件和数据库。
1.硬件
是系统中采用的各种硬件设备的总称,包括具有一定性能的计算机主机、外围设备以及数据处理或数据传输有关的其他设备。
2.软件
指系统中有关的程序和各种文件资料的总称,包括系统软件(如操作系统,输入输出控制程序)和应用软件。
3.数据库
是指以一定的组织方式存储在一起的相关数据的集合。数据库是计算机技术与信息检索技术相结合的产物,是计算机信息检索的基础。数据库的类型包括参考数据库、源数据库和混合数据库。
(1)参考数据库:
指用户从中获取信息线索后,还需进一步查找原文或其他资料的一类数据库。它包括书目数据库和指南数据库。
1)书目数据库:
书目数据库是存储某个学科领域的二次文献的数据库,有时又称作为二次文献库。它依照二次文献的不同类型又可分为题录文摘数据库、索引数据库和图书馆书目数据库。
2)指南数据库:
指南数据库是存储有关某些机构、人物、出版物、项目、程序、活动等简要描述性信息的一类数据库,亦称指示性数据库。例如,机构名称数据库、人物传记数据库、产品数据库等,都属于这一类数据库。
(2)源数据库:
又称为数据银行,它是能够直接为用户提供原始资料或具体数据的一类数据库。源数据库又分为数值型数据库、文本 - 数值型数据库、术语数据库、图像数据库、全文数据库、超文本数据库。
1)数值型数据库:
指专门提供以数值方式表示的调查数据和统计数据的一类数据库。
2)文本-数值型数据库:
指能够同时提供文本信息和数值数据的一类数据库。
3)术语数据库:
指专门存储和检索名词术语、词语信息等的一种源数据库。
4)图像数据库:
指用来存储和检索各种图像或图形信息及有关文字说明资料的一种源数据库。
5)全文数据库:
指存储和检索文献全文或其中主要部分的一种源数据库。
6)超文本数据库:
该数据库存储时将存储内容分割为若干独立利用的节点,使用链路连接节点等方式进行存取,从而构成一个不拘泥于形式逻辑推理,不遵循某种正规模式的网络框架结构,因而具备了类似于数据库又优于一般数据库的特点。
(3)混合数据库:
兼有源数据库和参考数据库的特点,按载体形式它又可分为以下四种类型:磁媒体数据库、光盘数据库、多媒体数据库、超媒体数据库。多媒体数据库是一种能够对文字、数值、声音和图像等不同性质的媒体进行一体化处理和管理的新型数据库。超媒体数据库是通过外部树形的链接将多种类型的媒体连成一个集合。随着网络技术的发展,磁媒体数据库、光盘数据库的使用量逐渐缩减。
二、计算机信息检索的发展历史
(一)脱机批处理检索
1954—1964年,脱机批处理检索应用较多,它需要专职检索人员定期将大量用户课题汇总,批量处理提问要求,并将结果反馈给用户。采用直接在计算机旁检索,不需要远程终端设备及通信网络的服务模式。用户需要在计算机处理成批检索课题之后才知道检索结果,不能直接、及时修改检索策略,查全率和查准率受到一定限制。
(二)联机情报检索
20世纪70年代,联机情报检索模式投入商业运营。用户在计算机检索系统的终端上,通过通信网络,使用特定的指令和运算符,以人机对话方式,查询远程计算机检索系统核心的数据库,从中获取所需信息的计算机检索系统。联机系统使许多相互独立的终端实现了“对话”方式的信息检索。所谓对话方式,就是用户利用系统提供的、为数不多且简单易记的检索命令,每次输入一条命令或由命令组成的表达式查看结果。系统则每次显示出可能的信息,帮助用户选择下次该用的命令或表达式,用户通过与系统双向对话,可不断改变或完善检索策略,直至获得满意的检索结果为止。联机检索系统由三个部分组成:①主机系统;②通信系统;③终端设备。
(三)国际联机检索
20世纪70年代中后期,在联机检索的基础上检索服务扩充到国际模式,国际上一些大的联机检索系统开始通过网络面向全球提供服务。
(四)光盘检索
20世纪80年代初期出现了光盘检索,主要是利用激光、计算机及光电集成等技术实现信息的数字化存储。以光盘为介质的光盘数据库检索系统由于信息存储量大,简单易用,逐渐占据了市场主导地位。
1.光盘数据库检索系统的优点
①一次购买,无限制使用,不必考虑检索时间及远程通信费用等因素;②存储容量大,检索途径多;③适用于通信不发达、联网较困难的地区,是联机检索、网络检索的有效补充。
2.光盘数据库检索系统的局限性
①数据更新有一定的周期,时效性、灵活性比不上联机检索;②目前光盘数据库容量有限,一般是按专业和领域建库,收录范围不够广泛;③适用对象的局限性,因为一次性购买费用高,对使用频率不高的单位或个人而言成本较高;④设备和软件的兼容性较差,各种光盘数据库检索系统目前还难以实现标准化和统一化。
光盘检索系统的构成主要包括计算机、CDROM驱动器、检索软件、CD-ROM数据盘。
(五)网络信息检索
网络信息检索是通过标准通信协议将世界各地的信息检索系统用网络连接起来,形成一个基于客户机 - 服务器模式的网络分布数据库结构。它将全球范围内的科技信息、商贸信息、经济信息、时事新闻以及日常生活信息通过互联网聚合在一起,向亿万联网用户提供广泛的信息检索与服务。
网络信息检索服务的特点:
1.信息检索服务的开放性
网络信息系统中包含信息资源、信息设备、信息通道、信息检索软件及信息终端等子系统,各个子系统都是开放的,其信息资源面向所有用户。
2.超文本的多链接性
以超文本技术为基础链结构将不同地方的相关信息有机联系起来,使用户可通过点击文本或图表中的超文本链接点访问另一个相关的文档。
3.用户界面友好且操作方便
采用客户机 / 服务器结构,通过交互式的图形界面,为用户提供友好的信息查询要求,检索途径多且可保留检索历史。
4.具备良好的导航和编辑功能
网络信息检索一般都可以引导读者在复杂的网络信息资源中漫游而不致迷失方向,用户可以利用导航机制,了解其所在网络图中的位置。网络信息检索具有良好的编辑功能,包括修改、增加、删除节点和链的能力,此外对节点内的信息也具有良好的编辑能力,可进行多窗口编辑。
三、计算机检索技术与实现
(一)布尔逻辑检索
布尔逻辑检索即运用布尔逻辑算符(boolean operators)对检索词进行逻辑组配,表达两个概念之间的逻辑关系。布尔逻辑算符主要有“AND”“OR”“NOT”,在中文数据库中,布尔逻辑运算符有时用“AND”“OR”“NOT ”表示,有时用 “*”“+”及“-”表示。
1.逻辑与(逻辑乘)
用运算符号“AND” 或“ * ”连接检索词。(图3-1)
例:查询有关“计算机在图书馆中的应用”的文献,检索式=计算机 * 图书馆

图3-1 AND逻辑运算
2.逻辑或
用运算符号 “OR” 或 “+”连接检索词。(图3-2)
例1:查有关“苹果或梨”方面的文献。
检索式=苹果 + 梨
在同义词检索中使用,能提高查全率。
例2:查有关“计算机或机器人”方面的文献。
检索式=计算机+ 机器人

图3-2 OR逻辑运算
3.逻辑非
用运算符号“NOT”或“—”连接检索词 “A NOT B”。(图3-3)
例1:查有关“玉米但不是甜玉米”方面的文献。
检索式=玉米—甜玉米
例2:查有关“不是铬合金”方面的文献。
检索式=合金—铬

图3-3 NOT逻辑运算
(二)位置运算符
文献记录中词语的相对次序不同,所表达的意思可能就有所不同。同样在检索式中,检索词的相对次序不同,表达的检索意图也不一样,布尔逻辑运算符有时难以表达某些检索课题的确切提问要求,用词间位置运算符来限定和组配检索词,可弥补布尔逻辑算符只定性规定检索词的范围,而未限定检索词的位置关系,易造成误检的不足。
位置运算符检索是利用一些特定的位置算符来表达检索词之间的位置关系,并且可以不用叙词表而直接使用自由词进行检索的方法。有的书上还将这种检索称为原文检索。这种检索在利用提名检索(TI)和摘要检索(AB)途径检索时,对检索质量影响很大。
(三)截词检索
利用截词检索时,应注意截词的部位,切忌截得太深,否则误检率会很大。
(四)词组检索
词组检索是将一个词组或短语用双引号(“”)括起作为一个独立运算单元进行严格匹配,以提高检索准确度的一种检索方式。如:“Global Positioning System”,只检索出规定字段中包含该段完整词组的记录。
(五)括号检索
括号检索用于改变运算的先后次序,括号内的内容做优先运算。用“()”可以表示优先级。
(六)字段限制检索
将检索词限定在某一字段内,检索时,计算机只对限定字段进行运算,以提高检索效率。常用的检索符号有:in、=、<、>、≤、≥。
小结:在一个复杂的检索式中,不仅可以有多个运算符,也可以使用括号来指定运算的优先顺序以及体现概念的完整性。