《刘慧-医疗健康场景的大模型产品探索.pdf》由会员分享,可在线阅读,更多相关《刘慧-医疗健康场景的大模型产品探索.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、刘慧京东健康医疗AI产品副总监医疗健康场景的大模型产品探索2024 全球产品经理大会医疗健康行业痛点及大模型机遇大模型产品落地难点及思考医生端产品落地探索实践C端落地探索实践医疗健康行业痛点及大模型机遇医疗健康行业痛点用户都不知道已经得病很长时间了,错过了最佳治疗时机看病难排队2小时看病5分钟外地复查太难了,只能在医院外搭帐篷网上信息这么多,哪些是真的在家没人管,治疗效果无法保证挂不上号本地没有看这个病的专家医生忙完门诊忙病房,看不完的病人,写不完的病历知识更新越来越快,消耗精力晋升需要科研成果和文章,没有时间搞科研离院病人没空管培养周期太长,同学早就工作了付出太多,挣得太少行业不可能三角优质
2、医疗资源稀缺我也想有耐心,但是事太多了质量可及成本这么多种药、保健品,该吃什么大模型医疗医疗健康领域专业能力过去两年间,医疗大语言模型在医疗问答准确率增长了超过50%;最新医疗大语言模型在一致性、医学归因能力、低伤害性等8个维度(共9个)均优于医生。81.4GPT-4(540B)(340B)(175B)医生评分者为15个人:6人在美国,4人在英国,5人在印度。专业知识涵盖家庭医学和全科医学、内科、心脏病学、呼吸学、儿科和外科。非专业评分员为印度的6名评分员(4名女性,2名男性,18-44岁)中抽取的,均无医学背景。医生和非专业人士的评分Figure 1.Med-PaLM 2 performan
3、ce on MultiMedQA.Med-PaLM 2 achieved an accuracy of 86.5%on USMLE-style questions in the MedQA dataset.1.不同模型对比评估:让评价者(包括医生和非专业人士)在不同维度评估哪个模型更好。2.单个模型独立评估:随机选择三位评价者对单个模型进行评价,评价者不知道答案来源,且不与其他评价者协商。3.统计分析:bootstrapping计算置信区间。评价方法Med-PaLM1(Dec.2022)Med-PaLM24(May.2023)由谷歌开发,基于540B参数的PaLM模型,使用医疗数据进行指令微调
4、。Med-PaLM是第一个在美国医师执照考试(USMLE)上获得“合格分数”(60%)的模型。它不仅准确地回答了多项选择题和开放式问题,而且还提供了理由并评估了自己的回答。GPT-42(Mar.2023)1 Large Language Models Encode Clinical Knowledge,arXiv:2212.13138,2022.2 OpenAI Research,https:/ Capabilities of GPT-4 on Medical Challenge Problems,arXiv:2303.13375,2023.4 Towards Expert-Level Med
5、ical Question Answering with Large Language Models,arXiv:2305.09617,2023.由OpenAI开发,参数量未知。文献3评价其在医疗能力考试和基准数据集上的性能。结果表明,在没有任何专门提示词优化的情况下,GPT-4超过了USMLE的及格分数20分以上,优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行微调的模型(Med-PaLM)。谷歌开发,利用基础LLM改进(PaLM 2)、医学领域微调和提示策略(包括一种新的集成细化方法)的组合来实现效果提升。Med-PaLM 2在MedQA数据集上的得分高达86.5%,比Med-
6、PaLM提高了19%以上,实现新SOTA。模型评测方法:大模型医疗健康行业应用供给侧信息:生产角色从人向人+算法过渡,信息生产工业化、智能化,信息供给模式不再是分发逻辑服务:提供者从人向人+算法过渡,服务提供不间断、质量稳定,边际成本降低消费/使用侧信息:获取信息方式从个性化转变为定制化,形态从静态内容逐步转变为可交互内容服务:C端 实时响应、稳定体验,一站式操作;B端 高效工作流行业内现有产品或功能的改进既往不普遍存在的功能现有人工功能的辅助或替代互联网平台医院医生用户健康商家药械企业支付方智能医生运营健康内容生成辅助问答智能病历服务智能质控诊疗推荐医生助理虚拟代表患者管理随访管理智能核保辅