前言

随着互联网、云计算、大数据、人工智能、可穿戴健康医疗设备等领域的快速发展,每天都有海量、多源、异构的健康医疗大数据产生。如何挖掘和利用好这些大数据,将数据库变成知识库进而为人们带来更有效的健康医疗服务,已成为高校人才培养和众多医学科研工作者共同关注的焦点。围绕健康医疗大数据获取与分析建模的领域,需要培养大批人才。然而目前,我国各高校普遍缺少相应的教材。我们组织全国25名在健康医疗大数据领域教学科研一线的专家编写了本教材。

编写本教材遵循的原则主要有:第一,内容的科学性为主,兼顾方法的实用性。正确阐述健康医疗大数据及其建模方面的科学理论和概念定义,理论密切联系实际,重要方法以实例解释理论,对实践起到指导作用的基础上注意将本领域最新发展成果、新技术、新方法纳入本教材。第二,把握好写作条理性。注重教材的层次分明、条理清楚,教材体系能反映内容的内在联系及机器学习处理大数据的思维方式。第三,以研究生或同等水平阅读能力群体为主要对象,并兼顾本科生数据科学专业教学。从认知规律出发,富有启发性,便于学生学习。第四,突出实践技能,强化软件操作。注重健康医疗大数据各种机器学习方法(数据挖掘、深度学习等),以实际案例引入,采用R语言或Python语言软件编程,并给出结果解释,使学生真正掌握大数据建模计算方法。

本教材共分为十四章:绪论、大数据存储与管理技术、医学图像大数据的结构化处理方法、医学文本与语音大数据的处理方法、健康医疗高维大数据常用降维方法、互联网健康医疗大数据的获取、健康医疗大数据的关联分析、分类诊断常用的数据挖掘方法、回归预测常用的数据挖掘方法、健康医疗大数据深度学习方法、健康医疗时间序列大数据的建模方法、健康医疗大数据的时空建模方法、健康医疗大数据背景下的因果推断、生物信息大数据建模方法与应用。此外,附录部分还包括了大数据分析软件简介等内容。为了压缩篇幅,书中例题的数据库及练习题答案等内容以二维码形式展示。

在本教材即将问世之际,感谢中南大学孙振球教授,孙教授在全国研究生《医学统计学》教材第五版编写会议上,提议主编一部健康医疗大数据建模方法与应用方面的教材;感谢首都医科大学王松灵副校长等有关领导对本教材编写工作给予的关心、支持与指导;感谢来自全国11所高校的20余位大数据建模与应用领域专家在缺少参考书籍和参考资料的情况下,百忙中认真撰写各自负责的章节内容,反复凝练、修改与完善书稿;最后,感谢学术秘书夏娟、陶丽新老师为本书做了大量而繁杂的具体工作,还要感谢研究生冯巍、张彦飞、李伟铭、刘悦、武志远、李志伟、潘荟颖、刘梦梦、张海平、吕世云、于思琪、王金琪、韩泽、曹耘嘉、王唱唱、邹雯等同学对本书所有例题、软件操作进行了复核,并认真校对书稿。另外,还要感谢参与本书编写,但未列入编者名单的颜素容、缪素芬、刘颖、李芳、宋秋月、陈佳、李高明等老师。

本书可作为医学院校数据科学与医学大数据专业的核心课程教材,以及医学工程专业的核心课程或选修课程教材;也可供临床医学、基础医学、口腔医学、卫生信息管理学、生物医学工程学、中医药学等医学类专业开设进阶层次的专业拓展课程教学使用,同时,对从事健康医疗科学研究的工作者亦是方便自学的有益方法学书籍。限于编者的学识和精力,本书的缺点和错误在所难免,恳请广大读者批评指正,给我们提出宝贵意见(Email:guoxiuh@ccmu.edu.cn),以便再版时及时改正,谢谢!

郭秀花

2022年6月于北京