- 健康医疗大数据建模方法与应用
- 郭秀花主编
- 5396字
- 2025-03-14 21:44:14
第四节 健康医疗大数据建模方法与应用概述
一、人工智能
人工智能可以通过处理大量医疗健康数据,并利用自然语言识别能力以及超凡的机器学习能力,为医生提供辅助诊断,提高疾病的临床研究与治疗水平。例如IBM Watson可以在17秒内阅读3 469本医学专著、248 000篇论文、69种治疗方案、61 540次实验数据、106 000份临床报告,并根据医生输入的患者指标信息,为医生提供辅助诊断,最终为癌症患者提供私人定制的、以症状为依据的个性化治疗方案,提高癌症治疗水平。自2016年起,人工智能领域建设已上升至国家战略层面,国家积极推动人工智能技术及产业发展,在脑机交互、中文语义信息处理、智能机器人仿生技术等领域取得重要突破,特别是在汉字识别、语音合成、语义理解、生物特征识别、机器翻译等方面保持国际先进水平。人工智能在健康医疗领域的应用,开启了基于大数据的机器学习时代,为更好地以大数据为基础,在癌症以及其他常见病的辅助治疗上取得了更多突破,可以说:人工智能引领健康医疗大数据未来发展。
二、机器学习
20世纪70年代之前,人工智能的研究范式是采用抽象数据列表与递归作符号演算来衍生人工智能。此后,基于专家系统、自然语言理解、智能知识库的逻辑推理范式逐渐占领人工智能主流地位。当前,人工智能的主要实现方式是机器学习,针对数据加强处理、安全机制等方面要求的深度学习、增强学习、联邦学习、迁移学习,都是机器学习的高级表现形式。
机器学习(machine learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。
首先,常用机器学习分析算法库方面,早期机器学习算法很多是由C++语言实现的,因为机器学习算法对运算速度要求很高。例如Shogun是使用C++实现的机器学习类库之一,其从1999年开始开发,提供大量的机器学习算法,并且提供很多核方法的算法。但与很多C++算法的开发问题相同,C++程序的图形化开发难度大,对编程能力要求高。其后,为了兼顾应用程序的开发效率且面向更多的开发人员,使用Python和Java的算法库也开始出现并且快速发展。例如Weka是一个开源的机器学习类库,使用Java作为开发语言。Scikit-learn是Python环境下流行的模块化机器学习类库。
其次,在分布式机器学习工具方面,自从MapReduce计算框架被提出,大规模机器学习算法迅速发展。例如Samsara是基于Mahout分布式环境下的机器学习类库提出的机器学习算法,能与Spark MLlib兼容、提供面向Scala API的算法库环境,重新定义如何使用Mahout进行可扩展的机器学习算法应用的创建,以及向用户提供个性化的数学工具,使其能够编写自定义策略或优化方法。Spark MLlib是Spark自带的机器学习类库,包括大量的特征处理以及模型拟合方法,能与Spark分布式系统本身高度兼容,运行高效率的大规模机器学习分析应用。GraphLab是一个可以在集群实现大规模机器学习分析的开源计算框架,其在MapReduce计算框架的基础上进行发展,能够更好地运行迭代型、数据重叠型的算法。
三、深度学习
深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习是学习样本数据的内在规律和表示层次,学习过程中获得的信息对文字、图像和声音等数据的解释有很大帮助。深度学习的概念早期源于人工神经网络研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,其模仿人脑机制来解释数据,例如图像、声音和文本等。最终目标是使机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。因此,深度学习是一个复杂的机器学习算法,在深度学习分析工具方面,语音识别、图像识别与自然语言理解都实现了突破性发展。其中Google开源了TensorFlow(GitHub),此举在深度学习领域影响巨大。对希望在应用中整合深度学习功能的开发者来说,GitHub上其实还有很多较好的开源项目值得关注,如规模人气很高的Caffe、Theano和Torch。除了以上三个比较成熟知名的项目,还有很多有特色的深度学习开源框架也值得关注,例如Brainstorm、Chainer、Deeplearning4j、Marvin、ConvNetJS等。
人工智能可以借助深度学习,通过整合医疗图像、病例、可穿戴设备数据等各类形式的数据,进一步提升医生临床诊断的决策效率,减少人为操作误判率。近年来,从图像中识别出对象物的“图像识别技术”性能,在“深度学习”的帮助下迅速提高。X线照片的分辨率为(3 000×2 000)像素,其中的恶性肿瘤尺寸为(3×3)像素左右。从非常大的图像上判断一个很小的阴影状物体是不是恶性肿瘤是非常难的任务。人工智能技术在判断时,首先会将一张胶片进行预处理,将其分割成若干小块,再从每一块中提取特征值与数据库进行对比,经过匹配后作出相关判断。在整个诊断过程中,人工智能也会自己进行深度学习,在病历库中寻找案例,作为判断的依据。例如:利用胸部CT检查结果,在针对结节和肺癌的判断上,人工智能比专业放射科医生准确度高50%。人工智能还可以检测到占整个X线片面积0.01%的细微骨折。
使用深度学习技术,人工智能在精神健康方面能够进行情绪识别,加强精神疾病的预测与监控。人工智能在精神健康方面的市场需求十分巨大。世界卫生组织(World Health Organization,WHO)数据显示,美国1/5的人有精神健康方面的问题,每年有200万人次因精神问题导致住院。而且精神疾病的痊愈相当困难,患者的重复住院率为37.5%,导致每年的花费为452亿美元。在中国,由于人口基数庞大,受各类精神健康影响的人更多。中国有2.5亿人需要心理咨询服务,有8 000万人需要心理治疗。在情绪识别方面,利用人工智能技术,发现细微的现象或捕捉稍纵即逝的表情或情绪变化,进而理解人类的情绪变化,并在判断出情绪变化之后通过一些方法帮助人类进行情绪管理和调节。在精神疾病预测与监控方面,通过建立疾病发作的风险分层模型,利用机器学习可以对疾病进行提前干预,有效预测病情发作的概率。可以从患者的录音中搜索语言线索,以数字的方式呈现,为精神疾病的诊断提供参考。同时通过观察患者在医院的发病状态或抑郁状态的语音模式变化规律,可以更快地为精神疾病患者开出正确的处方与合适的剂量。
深度学习也是一种非常有前景的表现型预测方法,即预测中间分子的表现型,如基因表达或基因剪切等,这些信息会用于下游疾病的预测。中间分子状态预测比人类性状预测容易,因为其信号更多,训练数据更加广泛。这两个特征使得这一问题非常适合用深度学习解决,目前已经证实深度学习非常善于预测剪接和转录因子结合。基因组数据也可以直接作为疾病产生和衍化的生物标志物(biomarker)。例如,血液中含有少量脱离细胞的DNA,这些DNA是从身体其他部位的细胞中释放出来的。这些DNA片段是器官排斥反应(即免疫系统攻击移植细胞)、细菌感染及癌症早期的非侵入性指标。脱细胞DNA被成功应用于产前诊断:胎儿DNA存在于母亲的血液表明染色体畸变,可以揭示胎儿的整个基因组。生物标记数据通常非常嘈杂,需要进行复杂的分析(如确定脱细胞DNA是否预示癌症),深度学习系统可以提高针对DNA序列、甲基化、基因表达及其他度量的生物标记分析质量。
四、强化学习
强化学习(reinforcement learning)通常是为了实现特定目标,可通过试错、演示或混合方法来实现。一旦智能体开始在其环境中采取行动,奖励和后果的迭代反馈循环会训练智能体更好地完成目标。强化学习在医疗上的典型应用是普林斯顿大学的一个研究案例:ICU是重症监护室(intensive care unit)的简称,是医院抢救危重患者的病房,也是一个医院医疗资源高度集中的地方。抢救和监护重症患者时,医生常常会陷入一个两难境地:血液化验指标可以提供抢救患者的关键信息,但过于频繁的化验有加重病情的风险,也会增加治疗的费用。普林斯顿大学研究团队设计了一个强化学习系统,可以在减少化验频率的同时优化关键治疗的开展时间。该机器学习系统目前关注的重点是血液中的乳酸、肌酸、尿素氮和白细胞,这四个指标常用于诊断肾衰竭和感染导致的败血症。研究团队使用了MIMIC Ⅲ的重症患者数据库,该数据库共收录了于波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)就诊过的5.8万条ICU病历。最终有6 060条病历记录被用于训练机器学习算法,这些患者都曾在ICU接受过生命综合体征和血液检测。强化学习算法在该机器学习系统中发挥了关键性作用。算法中的“奖励机制”鼓励系统优先挑选可以提供更多关键信息的血液化验项目。具体来说,如果算法挑选了更能体现患者疾病状态变化、能预示开展临床治疗(如抗生素、呼吸机治疗)的检验项目,会得到加分。对应的,如果算法挑选的检验项目会提高治疗费用或患者风险,则会被减分。在ICU中,医生面临的其实是一个连续性决策问题。上述强化学习算法可以提高机器学习甄选临床检验项目的能力,通过优化临床检验的次序来得到最多的奖励。并且,事后回顾化验和治疗过程时发现,经优化的临床检验次序最有利于患者的长期看护和治疗。
五、联邦学习
医疗机构对人工智能技术多持有开放欢迎的态度,认可其在辅助医疗等领域带来的收益,但因涉及医疗隐私等问题多持保守意见,合法合规使用医疗数据使其发挥作用是业内人士的基本态度。医疗隐私问题已经筑成了人工智能技术的围城,如果突破医疗隐私的围城,人工智能技术在医疗领域将会有更进一步的发展。安全隐私问题制约人工智能技术在医疗健康领域的发展,为此,2017年4月谷歌第一次提出了联邦学习的概念。2019年谷歌实现了首个产品级的联邦学习系统,解决安全隐私问题。联邦学习中的安全技术包括:①安全多方计算(SMC),是解决一组互不信任的参与方之间保护隐私的协同计算问题的方法,SMC要确保输入的独立性、计算的正确性,同时不向参与计算的其他成员泄露各输入值。②差分隐私,针对数据库隐私泄露问题提出的一种新的隐私定义,主要通过使用随机噪声来确保:查询请求公开可见信息的结果并不会泄露个体隐私信息,即提供一种从统计数据库查询时最大化数据查询的准确性,同时最大限度减少识别其记录的机会,简单来说,就是保留统计学特征的前提下去除个体特征以保护用户隐私。③同态加密,是基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果一样。与一般加密算法相比,同态加密除了能实现基本的加密操作之外,还能实现加密文间的多种计算功能,即先计算后解密可等价于先解密后计算。
六、迁移学习
当前的人工智能各类算法,都需要足够的训练样本,而且只有在训练数据和测试数据处于相同的特征空间中或具有相同分布的假设下才能很好地发挥作用,一旦随着时间推移,标签可用性变差或标注样本数据缺乏,效果便不尽如人意。为了训练出与医学专家水平相同的模型,达到临床应用所需的精度,需要在保障隐私的基础上,为人工智能算法提供大量的能够充分代表临床环境的病例用于训练,这是切入人工智能在医疗应用痛点的迁移学习。
顾名思义,迁移学习(transfer learning)就是把一个领域已训练好的模型参数迁移到另一个领域,使得目标领域能够取得更好的学习效果。迁移学习是解决如何利用源领域(source domain)中少量的可用标签训练样本和数据训练出鲁棒性好的模型,对具有不同数据分布的无标签或少可用标签的目标领域(target domain)进行预测。鉴于大部分数据存在相关性,迁移学习可以比较轻松地将模型已学到的知识分享给新模型,从而避免从头学习,这样可以加快效率,也大大提高样本不充足任务的分类识别结果。在计算机视觉领域,迁移学习已经有了很多成功的应用,如对象检测、图像分类、医学成像任务等,甚至在一些任务中,机器能以超越人类精确度的水平完成。如基于机器深度学习的医学影像智能阅片系统,需建立卷积自编码、迁移学习、对抗学习等众多模型,以及研发多结节自动分割、高通量特征提取、三维超高分辨率动态显微成像、多参数专科超声成像、多模态分子成像、基于内容影像检索等多种设备及技术。从影像大数据原始像素出发,提取高维手工设计特征并进行特征选择,构建影像特征与临床问题的分类模型。从多尺度卷积神经网络同时提取肿瘤组织、肿瘤边界和肿瘤微环境信息,提升肿瘤疗效预测性能。卷积自编码器从无标签数据中自动学习疾病关键特征,比传统手工设计特征更有效。构建迁移学习模型,实现肿瘤自动分型和分类预测,辅助临床诊断。构建多智能体对抗学习模型,进行精确的肿瘤预后预测分析。构建多病种、多模态、多中心、多参数的医学影像数据资源平台,将计算机定量特征、经验特征、文本信息、基因信息和病理信息相结合,全面量化疾病异质性。随着深度神经网络应用于越来越多的领域,迁移学习已经成为开发深度学习模型的一种非常流行的技术。在迁移学习中,神经网络的训练分为两个阶段:第一,预训练阶段。通常在代表大量多种标签/类别的大规模基准数据集(例如ImageNet)上训练神经网络。第二,测试阶段。对预训练的网络在感兴趣的特定目标任务上进一步训练,可能需要比预训练数据集更少的标签样本。预训练步骤可帮助网络学习在目标任务上重用的通用特征(general features)。迁移学习在NLP跨域情感分析上也展现了技术潜力。与此同时,迁移学习存在的问题也随之暴露。研究人员发现,从不同的角度剖析不同模块的作用及影响成功迁移的因素时,相比高层的特征,预训练模型适合迁移的主要是低层统计信息;但在某些案例中,源域和目标域之间在视觉形式上仍存在较大差异,很难理解什么能够成功进行迁移,以及网络的哪些部分对此负责。