- 健康医疗大数据建模方法与应用
- 郭秀花主编
- 1902字
- 2025-03-14 21:44:14
第三节 健康医疗大数据的现状与挑战
一、健康医疗大数据分析面临的挑战
我国健康医疗大数据分析面临两个挑战:第一,科学应对数据源头“求数无源”或“有量无质”的现状。临床数据的采集工具标准化和规范化本身就是一个问题,更要保障所采集数据能够满足既定用途所需要的一定数量和一定质量等问题,这些都是对健康产业能否快速良性发展的考验。第二,切实解决应用发展过程中“有病无数”或“有数无据”的现象,改变我国临床救治与数据应用需求脱轨的局面,加强大数据、人工智能等新技术在临床上的应用发展,加强并完善临床一线的数据收集和汇聚,疾病救治过程就是临床数据采集过程,完善数据交互共享和临床科研协作的网络建设过程,在数据深加工方面要取得科学突破,尤其是生命内涵与健康本质的探究,促使数据驱动的临床科研、医药研发、器械生产、三医联动、分级诊疗、健康养老、医养结合、家庭医生签约等产品和服务的快速发展,构建数据驱动的健康产业发展支撑平台。
二、健康医疗大数据清洗与融合技术已经成熟
多源异构数据的清洗和融合是复杂健康医疗数据分析的重要保障。提升数据质量的重要途径是纠正健康医疗数据文件中可识别的错误,其数据清洗技术常采用的策略包括自动算法实现、专门编写应用程序实现、人工实现等。数据清洗常采用的方法包括空缺值填充、孤立点识别、噪声消除、数据纠正和正则化处理等,还常需要对数据格式、语义进行转换处理。数据清洗既包括与健康医疗特定应用领域无关的数据清理,也包括与其有关的问题数据处理。同时,在数据整合过程中通过相关大数据技术或协议将分散存储在医疗信息系统、可穿戴设备和公共卫生信息系统的健康医疗数据迁移到大数据中心平台。根据标准体系,对出现多义性、重复、不完整、违反业务或逻辑规则等问题的数据,进行大规模清洗、管理、配置和调度,并制定相关数据治理框架和服务标准。
三、健康医疗大数据处理手段呈现多样化
大规模高性能数据挖掘是健康医疗数据洞察的重要手段。健康医疗数据分析挖掘是开放的,采用开源、开放的分析挖掘工具才能让更多的行业企业、科研机构、医疗机构参与数据的合作研发和应用,从而避免被某个或某几个固定的企业专有技术锁定,变成一个封闭的生态系统。分布式并行数据处理可以进行离线批处理、流式实时处理和复杂迭代的内存计算。同时,须综合运用统计学和数据挖掘技术,采用多元化方法对大规模数据进行多粒度多尺度决策分析,如统计特征分析描述主题现状;分类、聚类、关联规则、回归、预测、信号处理、仿真等机器学习算法挖掘深度知识;深度学习、联合认知框架等智慧认知技术构造类人的统一感知和发现能力。
四、健康医疗大数据应用发展态势良好
健康医疗数据在分析应用方面已有不少成功的案例,如四川省卫生管理机构利用病案首页数据库、新农合数据库和基层医疗卫生机构管理信息系统数据,主要采用基本信息评价、现场检查评价和时间序列分析等数据分析方法,利用3 000余万条病案首页数据,成功绘制全省1 821万名患者流向、20多种重点监测与常见慢性病病种分布、2015—2017年400多亿元基金使用情况等动态图,卫生行政主管部门能够得到立体精准的患者画像,清晰了解患者转院或跨级就诊的原因。通过对县域内就诊率、就诊费用和治疗效果等数据分析,不仅能为主管部门全面管控基层医疗服务能力提供决策支持,还可将挖掘的有用信息开放给患者,引导患者在县域内就诊。在公共卫生方面,全球公共卫生情报网络(Global Public Health Intelligence Network,GPHIN)是一个安全的基于互联网的早期预警系统,监控全球媒体来源,实时采集疾病暴发和具有公共卫生意义的信息。加拿大政府和世界卫生组织于1997年开始建设GPHIN,1999年投入使用,2004年GPHIN第二代正式发布。目前GPHIN系统能通过9种语言监测全球公众可获得的媒体信息。信息被不间断地收集,相关联的信息被自动归类,通过自动处理和人工分析结合的方式过滤并分类后提供给用户访问。在监测的内容上,GPHIN追踪疾病暴发、传染病、食品和水污染、生物恐怖、化学品暴露、自然灾害等事件。GPHIN已逐渐能够关注任何可能造成国际间疾病暴发的新闻事件,无论是自然发生的还是人为生物恐怖事件。作为早期预警系统应尽可能提高获取信息的广度和时效性,尽可能给用户带来范围更宽泛的信息提醒,使提醒时间接近潜在疾病暴发时点。因此GPHIN报告关注的重点不仅包括传染病暴发,还有许多可能与疾病相关联的特色信息。美国国家环境健康追踪体系(National Environmental Public Health Tracking,NEPHT)主要追踪环境危害、相关疾病以及其他相关信息3个方面的重要数据,其不仅是数据监测平台,更是一个环境健康综合数据整合平台。NEPHT由美国疾控中心主导,医疗卫生机构、学术机构、环保部门、社会组织、政府部门等多部门合作,疾控中心从各部门收集数据并整合后与各部门进行有效共享。