《2019年大数据心建设的再认识.pdf》由会员分享,可在线阅读,更多相关《2019年大数据心建设的再认识.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、CHIMA 2019(一)建设什么样的大数据中心 大数据利用是个性化的数据研究服务,简单例子:数据检索:化疗后白细胞数下降的患者30天内二次住院的患者 数据分析:65岁以上老年人患两种以上疾病的排名前三的共病组合老年下肢关节手术麻醉方式与术后肺部感染的相关性 大数据中心的职责是服务,与传统的信息中心有所不同信息中心大数据中心信息系统建设与运维数据服务大数据应用系统CHIMA 2019之一:数据管理中心 职责 数据采集、整合 数据存储管理 数据访问授权 工作平台 数据整合平台(ETL)数据检索系统 数据浏览系统 数据在线使用(虚拟桌面)所需人才 IT工程师数据存储数据检索数据浏览虚拟桌面数据整合
2、平台数据管理授权提取CHIMA 2019之二:数据加工中心 职责 根据用户需求,从原始数据加工生成特征数据 工作平台 自然语言处理工具 专病数据库平台 组学等专业数据处理平台 SQL 所需人才 IT工程师原始数据结构化处理、SQL、组学数据平台特征数据特征数据特征数据专病数据库平台CHIMA 2019之三:数据分析中心 职责 为用户提供数据分析服务 工作平台 各类建模工具 数据可视化工具 深度学习平台 所需人才 IT工程师 数据分析工程师数据存储SAS、SPSS、R、深度学习人工服务CHIMA 2019大数据中心的职能定位 大数据中心的三种职能定位数据管理数据加工数据分析全功能的大数据中心+C
3、HIMA 2019(一)建设什么样的大数据中心观点认识:“大数据中心”是数据服务中心而不是系统建设中心,“服务”有不同的内涵,不同的职能定位对应不同的技术平台与人才团队建设内容。在提出建设大数据中心规划时,首先要明确大数据中心的职能定位。CHIMA 2019(二)数据是否要做整体预处理数据整合结构化归一化清洗后数据分析数据整合原始数据分析结构化结构化归一化归一化分析分析VS整体预处理针对应用的预处理大数据中心数据处理的两种流程数据治理可以一次性完成吗?CHIMA 2019(二)数据是否要做整体预处理 信息的损失 病历文本结构化的结果不能完整表达原病历文本的语义 标准化(归一化)可能导致特定信息
4、丢失,如药品名称转换:诺欣、铂龙、顺铂顺铂 技术上的困难 历史数据的不一致,如疾病编码 ICD-9与ICD-10由于编码原则可能不同导致转换难以自动对照完成 整体结构化的困难,如不同病种的病历文本有不同的特点,目前尚难以做到泛病种的结构化处理CHIMA 2019(二)数据是否要做整体预处理 病历结构化不能完整反映文本语义,如症状之间的顺序关系CHIMA 2019(二)数据是否要做整体预处理 如,判断不同肿瘤分期的结构化处理方法不同肺癌N分期判定胃癌N分期判定N0:无区域淋巴结转移N1:同侧支气管或肺门淋巴结转移N2:同侧纵隔和/隆突下淋巴结转移N0:无区域淋巴结转移N1:区域淋巴结转移12个N
5、2:区域淋巴结转移36个N3:区域淋巴结转移715个N4:区域淋巴结转移16个以上格式:阳性个数/送检个数CHIMA 2019(二)数据是否要做整体预处理观点认识:在大数据中心数据资源建设中,预先将数据整体进行预处理的过程会带来信息丢失,技术上也存在较大困难,一次性的数据治理难以满足数据后续利用需求。采用“数据湖”概念,保留数据的原始性,针对特定研究问题开展数据预处理是更好的选择。CHIMA 2019(三)临床数据研究的两种路径 专病数据库路径:按病种设置特征,建立数据模型,预先整理加工 随机特征提取路径:按照研究问题抽取和处理特征,在分析时进行原始数据建立专病库抽取数据/特征提取选择特征数据
6、分析预先分析时分析时建立科研病种数据库是临床数据研究的必然选择吗?CHIMA 2019科研数据库的局限性 泛研究目的的科研病种数据库 以收集准备病种数据为目的,用以支持本病种不同目的的研究 数据库涉及数据项多,结构复杂,人工加工工作量巨大,持续难度大 针对问题分析时需要二次加工 难以满足所有研究需求 例:糖尿病视网膜病变专病数据库(片段)是否是否接受过降糖治疗、降糖治疗类型、胰岛素注射、目前规律口服降糖药、一年内服用降糖药物接受过降糖治疗、降糖治疗类型、胰岛素注射、目前规律口服降糖药、一年内服用降糖药物或注射胰岛素;或注射胰岛素;磺脲类促泌剂是否使用、磺脲类促泌剂药物剂量磺脲类促泌剂是否使用、