《2019年基于术语图谱的临床大数据清洗和利用.pdf》由会员分享,可在线阅读,更多相关《2019年基于术语图谱的临床大数据清洗和利用.pdf(47页珍藏版)》请在三个皮匠报告上搜索。
1、基于术语图谱的临床大数据清洗和利用.CHIMA 2019目录目录/CONTENTS数据清洗流程与术语图谱的作用人机协同的、基于规范的、包含常用术语的、基于本体的术语图谱的构建大数据价值链与临床大数据挖掘流程工具与算法支撑CHIMA 2019自然语言处理与大数据挖掘实验室大数据价值链1.数据获取2.数据清洗3.数据筛选和可达4.方法与算法5.应用设计与开发02030405010.业务系统数据(录入)00.测试CHIMA 2019自然语言处理与大数据挖掘实验室临床大数据挖掘具体工作数据获取医院CDR(各类影像和检查报告)/分院专科医联体/多中心(基于区块链)区域医联体(政府)随访。数据清洗与转换内
2、容抽取(XSLT)自然语言结构化正则表示数据映射数据归一化数据筛选和查看病人筛选(基于疾病/检查/手术)搜索/语义搜索/抽屉式搜索病人详细筛选队列构建方法与算法PSM,Cox,Linear Regression深度学习、决策树、影像识别应用科研人工智能:辅助影像诊断/决策支持辅助工作数据模型高效数据存储CHIMA 2019临床真实世界研究1.0手动作业自然语言处理与大数据挖掘实验室CHIMA 2019进阶2.0医院或区域健康平台中采集数据并自动清洗1.临床科研中心(Research data repository)2.科研数据治理(流程管理!人员管理!规范管理!)6数据整体诊断数据检验/检查数
3、据治疗数据疗效数据数据质量(可用性)评估数据完整性/一致性代码和名称一致性数据精确性大数据分析与挖掘算法基于深度学习的诊断、用药预测与生存预测疾病自动分类、致病相关因素挖掘等大数据平台数据质量问题反馈数据质量问题反馈知识库知识服务语义搜索、智能问答医疗健康知识图谱临床病历库疗效分析/风险预测模型库专病库抽取(二次建库)专病病例确定字段确定与提取文本结构化名称编码队列构建入队列条件控制变量终点事件基于PSM的对照组采样基于倾向性分析的疗效对比基于逻辑回归的显著性分析基于COX的生存分析基于KM的生存分析自然语言处理与大数据挖掘实验室CHIMA 2019进阶3.0A从电子病历源头开始临床医生专科电
4、子病历基于CRF表单设计界面前结构化与中结构化文本结构化自动编码知识库医疗健康知识图谱医疗术语诊疗路径数据质量控制数据完整性/一致性代码和名称一致性数据精确性随访数据质量反馈专科病例库搜索语义问答统计与分析队列构建入队列条件控制变量终点事件基于倾向性分析的疗效对比基于PSM的对照组采样基于逻辑回归的显著性分析基于COX的生存分析基于KM的生存分析1.对于病人来说,专科是否合理?2.不同专科存储的IT问题基于深度学习的诊断、用药预测与生存预测疾病自动分类、致病相关因素挖掘等基于倾向性分析的疗效对比基于机器学习的智能分诊通过病人信息辅助医生进行诊断大数据分析与挖掘算法自然语言处理与大数据挖掘实验室
5、CHIMA 2019进阶3.0B基于区块链的确权与利益共享自然语言处理与大数据挖掘实验室医院 1医院 n大数据分析与挖掘算法基于深度学习的诊断、用药预测与生存预测疾病自动分类、致病相关因素挖掘等基于倾向性分析的疗效对比基于机器学习的智能分诊通过病人信息辅助医生进行诊断医院 2多中心专科病例库(虚拟/真实)数据上链利益分享链数据上链数据上链基于数据来源的贡献计算机制CHIMA 2019清洗和查询中的难点:常用术语的表达多样化自然语言处理与大数据挖掘实验室1.症状同义词与上下位关系(头疼,头有点疼)2.疾病的同义词与上下位关系(心衰,慢性心力衰竭,PCI手术后慢性心理衰竭)3.药品机理与成分(AC
6、EI 类降压药)一致的记录数一致的记录数编码不在编码不在ICD10名称不在名称不在ICD10编码和编码和名称名称不对应不对应70928551343563 某医院某科室10年数据 诊断代码和名称一致性检测 在心衰病人信息表中,总记录数为16241,而疾病编码和疾病名称相对应的记录数为709条。数据分布:一致的记录数编码不在ICD10名称不在ICD10不对应CHIMA 2019目录目录/CONTENTS数据清洗/筛选/利用要点与术语图谱的作用人机协同的、基于规范的、包含常用术语的、基于本体的术语图谱的构建大数据价值链与临床大数据挖掘流程工具与算法支撑CHIMA 2019 界面用于输入疾病名称和IC