1、建设背景
国家高度重视医疗大数据的分析和利用,已经出台众多政策鼓励医院和企业进行相关方面的应用和探索。如,在2016年10月中共中央、国务院印发的《“健康中国2030”规划纲要》中指出:要加强精准医学、智慧医疗等关键技术突破,并倡导加强医疗大数据的数据挖掘和广泛应用,为医疗人工智能的发展指明了方向。2017年7月国务院印发《新一代人工智能发展规划》中指出:将医疗行业作为人工智能重点发展领域之一,提出探索智慧医院建设及研发人机协同临床智能诊疗方案,以及加强群体智能健康管理,强调数据挖掘、辅助诊疗、患者管理的人工智能产品在医院落地,以助推精准医学和智慧医院发展。2018年4月国家卫生健康委印发的《全国医院信息化建设标准与规范(试行)》中指出:要利用人工智能、大数据平台等先进技术进行临床医疗数据的处理与研究,实现医疗数据来源于患者,服务于患者。
同时,近年来,国内医院逐步意识到医疗大数据的重要性及潜在价值,多家医院已建设医疗大数据平台。但在探索的过程中,存在众多问题,导致缺乏医疗大数据的临床研究结果产出。这些问题主要有:①平台虽然做到了临床数据的整合,但没有从临床研究的角度对数据进行治理;②专病大数据的采集范围局限于院内部分信息系统,缺少对患者的全病程数据的采集;③平台缺乏顶层设计,以至于缺乏数据权限配置、管理等设计,产生数据滥用等管理问题。
2、建设目标
本项目通过建设基于人工智能的全院级科研一体化平台,对医院临床病历数据进行结构化、标准化的整合治理,面向医院重点专科提供临床科研数据采集和分析服务,满足不同临床医生不同的科研诉求。具体建设目标包括:
(1)对医院原有临床业务系统中海量的结构化、非结构化数据进行整合治理,构建符合科研维度、高质量的专科的单病种数据库。临床数据中临床科研信息丰富,但病历文本中医生书写语言的模糊性和随意性以及语法、语义结构的多样性,给临床科研目标变量的提取带来困难。本项目需有效解决院内医疗数据(特别是积压的历史数据)的非结构化和非标准化问题,满足科研需求。
(2)加强科研数据采集与检索,满足不同医生的临床科研个性化需求。支持普通医生等科研人员通过多维度科研变量来检索临床历史数据进行简单的回顾性研究。也满足高水平医生通过自定义eCRF系统自动采集临床科研数据,实现前瞻性科研的需要。结合科研随访系统,可采集患者报告结局,丰富单病种数据库。采集到的科研数据能直接导出支持SAS/SPSS等第三方统计软件使用。
(3)提高科研数据的统计分析功能,需要嵌套医学统计中绝大多数的统计方法,能够依据数据类型自动选择最合适的统计方法,并且自动生成统计报告。其中统计报告包含标准三线表、统计结果描述、统计图形等。
3、核心技术
该平台的核心技术是临床数据治理引擎。它基于先进的自然语言处理、知识图谱等AI引擎,实现各类临床数据的结构化、标准化和归一化等处理。针对数据驱动的临床研究场景,能够将医院积存的海量临床数据自动结构化、标准化成可被临床研究直接分析、利用的科研数据。
引擎基于通用数据模型及各类型专病数据模型对临床文本数据做颗粒化、后结构化处理,运用人工智能结合医学知识图谱自动转化非结构化文本数据,以满足回顾性查询所需的数据细化程度。同时针对提取出的医学信息,结合医学知识图谱自动完成数据的标准化,进一步提升数据的可用性、可交互性。
图1 临床数据治理
图2 体检检查结构化
图3 医学知识图谱
4、临床科研平台应用
(1)智能科研检索
临床科研中的一个重要步骤,即对大量的患者进行有效的检索筛选,以定位其中符合特定临床研究所需的患者。这个过程通常而言需要科研人员对大量的病历进行阅读与筛选,耗费大量的时间精力,并且极易出现信息的遗漏。智能科研检索将基于数据治理的成果,对病人进行精准的、细颗粒度的建模,从而快速定位和筛选满足特定条件的病人。
图4 智能搜索条件设置
图5 智能检索结果展示
(2)科研队列发现
科研队列发现管理有三个主要功能,分别为新建队列、韦恩图及订阅管理。科研队列发现管理方便医生针对项目设计所需的队列,从而进行队列研究。
图6 科研队列发现管理
图7 基于韦恩图构建新队列
(3)患者360科研视图
由于医院信息系统的复杂性和多样性,各系统间数据分散,标准不一致,难以实现交换和共享。各种临床数据分散在各个业务系统,比如病历数据在电子病历系统、检验数据存在LIS系统中,无法实现分散数据资料的互通互联集成和有效利用。为解决各信息系统之间的数据孤岛,实现系统之间的互联互通数据集成整合,便于临床数据分析并进行深度挖掘,患者360科研视图实现患者诊疗活动的全程历史记录的多视角浏览界面。目标是将医生关注的临床信息以患者为中心进行全方位的展现,包括门急诊、住院、体检的患者基本信息、就诊记录、诊断记录、电子病历、各种检查检验报告等所有临床信息,为医务人员的临床科研提供全面数据支持。
图8 患者360科研视图界面
(4)科研数据采集
1)CRF自动填充
针对临床科研课题组关注的数据项,提供临床科研表单的自动内容录入工具,用户可使用电子CRF工具填写课题需要的统计资料;CRF表单录入完成之后,用户可自行选择需要的数据导出到专业的统计工具中做更深入地分析。帮助医院快速便捷地完成大量劳动重复工作。
支持通过CRF编辑器方便制作各类CRF表单,包含基本控件如文本、选择框、日期、数据等,和基本模板、历史项目等三种创建模式,并可配置基本的校验逻辑及跳转逻辑。CRF录入界面满足人性化数据录入,分模块分表单呈现,能快速匹配病历资料、报告文本、检验检查等数据点,并自动完成填写CRF表单;支持WEB/移动端同步录入,满足多种数据格式和逻辑跳转,让数据收集更高效智能。
图9 表单自动填写
2)科研数据导出
科研平台的数据可以以Excel、CSV、SAS、SPSS、CDISC等多种数据格式的导出,兼容常用的统计软件,并支持国际上临床试验的CDISC常用标准。用户可以自定义筛选所需的变量和配置过滤条件,导出过程中可进行数据分析、校验。
图10 导出变量选择
图11 导出格式选择
图12 以表格形式进行导出
3)数据质量核查
平台提供系统+人工数据双重核查方式,来完成对数据质量的控制。在此基础上,另提供三级数据质疑管理,使管理者能对疑义数据发起质疑,提示录入员进行数据的核查与修改;并保留数据稽查及修改轨迹,保证数据可溯源。另提供数据资产管理功能,用户对专病库内数据的所有操作(修改、读取、调用、导出等)均留有记录,清晰可溯源,方便管理。
图13 对可以数据进行质疑
(5)科研统计
以往的科研统计分析过程中,医生需要从庞大、结构复杂的HIS系统或者其他数据系统中筛选研究相关数据,之后进行大量的人工数据清洗以及分析型变量的衍生工作,最后利用SPSS或SAS进行统计分析。其中数据筛选和人工清洗过程中可能存在较高错误率,导致最后研究结论不可靠。同时医学科研中普遍存在统计方法选择错误的现象。除此之外,医生对于机器学习相关应用的需求也越发强烈。数据探查统计平台包括自定义查询、数据清洗与智能统计分析三大模块。
图14 科研数据探查统计平台
图15 智能统计分析表
(6)科研驾驶舱
项目管理者可使用科研驾驶舱对整个医院的科研项目进行综合查看。科研驾驶舱接受各系统传入的数据,对它们进行整合加工,并以可视化的形式展现,提供直观的支持科研决策的信息。
图16 科研驾驶舱
(7)科研随访
随访管理。随访管理以科研项目的数据收集为目的,个性化配置随访表单和方案,实现智能化的随访提醒和标准化数据采集。
图17 设置随访事件矩阵
图18 患者随访管理
(8)数据安全权限管理
数据安全隐私管理包括数据权限控制、数据去隐私化、数据解密等。该方案涉及的所有临床数据均存储在医院的核心机房内,接受统一监管。在面向临床研究和患者服务方面均遵循医疗行业的伦理规范和信息安全等级保护规范,仅提供业务所需最小数据集,同时进行访问审计。例如在临床研究场景中,对于一类患者信息(姓名、家庭地址、身份证)进行加密,避免患者隐私泄露。
图19 安全管理与权限设置
系统管理模块有用户权限管理、病历匿名化等数据访问安全管理等功能:
权限赋予:添加新用户,并根据新用户身份对其赋予不同的权限,包括管理员、一般用户、随访角色、科研角色等。对已有角色进行编辑、删除以及角色权限变更;
权限配置:不同的数据权限拥有不同的数据浏览与检索权限:包括全院层级数据、科室层级数据、所在医疗组层级数据的浏览与检索;
病历匿名化管理:对于病历进行匿名化处理,保护患者隐私与信息安全。开启病历匿名化后,可选择对患者的姓名、手机号、身份证、电话号码等隐私信息进行隐藏。
5、专病库应用
在繁杂的临床数据中提取特定病种的科研数据集,首先需要制定面向特定病种的专用数据模型。
针对项目所涉及的病种,依据当前医院所有的专病数据情况及研究方向,搜集国内外相关疾病数据模型以及单病种数据标准进行整理荟萃用以参考借鉴,进一步完善病种数据模型,构建符合实际研究需要的专病数据集。
在构建专病数据模型时,我们首先定义了专病通用标准数据集。专病数据集标准定义了病例所包含的各类信息,如:患者基本信息、就诊记录、症状、诊断、实验室检查、药物治疗、手术记录、病理记录、影像学检查、内镜检查、既往病史、个人史、嗜好品信息、月经、婚育史、家族史、体格检查、生命体征、专科检查、护理记录信息,为单病种数据模型的构建提供标准化数据基础。
通过搜集、整合各种国内外专病的数据标准,并针对医院专科病历进行模型微调,最终形成适合医院特定专科的专病数据标准集,从而构建高质量专病数据库。
(1)专病库概况
专病库建设概览,通过对数据集成、变量加工方式和结果展示,展现高质量的专病数据库概况。
第一,支持展示专病库概况,包括专病库的累计纳入的患者和病历数,以及治理变量总数;
第二,支持展示专科病种条图,显示专病数据库里诊断归一名称及相应入库患者数量,并以可视图展示;
第三,支持展示专病数据集治理过程中具有代表性的变量状况;
第四,支持用户针对专病库中已配置的单一变量选择可视化展示。
图20 专病库概览
(2)专病数据库设置
1)数据库管理通过专病库设置功能对专病库相关信息进行设置,包括专病库名称、所属领域、项目标签的设置;
2)支持角色与权限管理,新增和管理专病库的角色。对各用户角色的权限按照系统功能进行配置管理,包括主要研究者、协助研究、录入员、账号管理员;
图21 数据库管理
3)支持成员管理,添加和管理专病库的成员。
支持符合专病库入库条件的新患者自动加入专病库,支持在数据集设计阶段确认专病数据库的入排条件,实现专病库上线后符合条件的患者自动加入专病库。
(3)专病科研项目
专病项目可进行科研项目设置以及数据质疑设置,支持专病项目数据库导出与数据探索。
1)支持项目内角色与权限管理,新增和管理专病项目角色;
2)支持专病库数据集中已有数据自动填充至专病项目中;
图22 结构化数据截图
3)支持手动录入和修改数据,并保留数据提交、修改的稽查轨迹;
4)支持数据核查与质疑;满足系统核查、人工核查两种核查方式。提供数据质疑管理,包括查看、回复、关闭、重启、导出质疑,不同角色拥有不同权限;
5)支持专病项目通过数据探索进行导出,并支持展示数据导出的操作日志;数据探索支持变量选择,字段搜索,支持多变量互斥逻辑判定;创建、删除、修改数据查询;对查询数据进行简单与高级筛选;对查询数据进行数据诊断;查询结果与全部数据导出,导出格式为Excel/CSV/SPSS/SAS;
6)支持专病项目的数据清洗,提供变量分级、类别转变量、记录合并、多选转单选、缺失值填补、剔除文本、记录替换、变量拆分的清洗工具;
图23 数据清洗界面
7)支持专病项目的数据统计分析:提供描述性分析、差异性分析的个性化统计分析,可视化并导出相应统计分析结果;
图24 数据统计分析新建任务界面
8)支持统计分析预测模型,包括随机森林、线性回归、Logistic预测模型。
6、数据安全性
(1)系统院内部署
科研平台及专病库部署于医院内部服务器中,与外界网络不直接互通,可有效保障院内数据不外流。所有的院内数据均存储在医院的核心机房内,接受统一监管。
(2)独立部署系统
科研平台及专病库独立部署于医院内部,不和医院其他系统嵌合,同时使用数据库复制技术对生产系统数据库业务数据表进行复制,在建立的复制库上进行数据抽取和治理,保证对生成系统数据库性能无影响,不会影响医院业务系统的正常运营。
(3)用户权限管理和患者隐私保护
科研平台及专病库内对患者的隐私保护有多个维度措施,在存放个人信息时,采用加密技术对个人信息字段进行,例如:姓名、家庭地址、身份证等。在展示界面中对于敏感数据的相对于字段采用数据脱敏技术,例如变形处理。并限制用户的查询权限,最小够用原则,后台进行访问审计。
7、应用实践效果
(1)建立医院高质量数据资产
以疾病为单元,构建覆盖患者全病程数据的科研数据库,通过自然语言处理、机器学习等技术使多源异构的临床数据变成满足临床研究细粒度要求、可直接用于临床研究统计分析使用的结构化、标准化的高质量数据,为医院实现数据应用奠定坚实的研究级数据基础。
本平台完成全院2009年至2020年9月全量超700W+电子病历数据,诊断标准化分类重构,包含:
74个申请单分类
1479个申请单
1092个检验指标
5.5亿条检验明细数据
图25 诊断标准化分类重构截图
(2)构建智能化临床研究分析平台
临床研究平台融合人工智能技术,实现复杂的患者检索、灵活的项目管理、全面的数据质量管控、自动化数据清洗、高效的数据分析挖掘等功能,辅助医生提高科研效率,降低临床研究门槛,提升科研积极性。
图26 临床科研平台上线截图
图27 智能随访上线截图
(3)推动临床科室向“研究型”学科发展
通过为科室建设专病数据库,积累科室丰富的专病数据,为科室进行临床研究思路的探寻和专病多中心研究的开展提供高效的工具,加速科室研究型人才培养,促进科室学科发展,推进科室建成为一流研究型科室。
图28 专病库制作截图
(4)助力医院成为国内数据驱动型医院
通过历史电子医疗数据和实时医疗数据的集成与治理,建设医院特色的高质量专病数据资产库,依托大数据平台,充分挖掘医院医疗大数据,构建“临床行为产生数据,洞察数据辅助决策,反馈临床行为”的数据驱动闭环流程,从而以数据的角度提高医院临床治疗效果与临床质量。
图29 全院培训现场