Med-PaLM揭秘！谷歌医疗大模型登Nature：AI医生可与人类医生表现相当

产业资讯政策法规研发追踪医改专题

Med-PaLM揭秘！谷歌医疗大模型登Nature：AI医生可与人类医生表现相当: 产业资讯 OMAHA联盟 2023-07-17 3844

OpenAI推出的基于大语言模型（Large language model，LLM）的聊天机器人ChatGPT展示了令人印象深刻的强大能力，但大语言模型在临床应用的门槛很高。人们敢相信AI医生吗？如何评估AI问诊有效性？在回答这些问题之前，医学界急需一个评测标准来鉴定。

当地时间7月12日，谷歌和谷歌旗下人工智能公司DeepMind的研究人员在Nature上发表一项研究，提出了MultiMedQA评估基准，用于评测大语言模型在临床知识方面的表现，还详解了谷歌医疗大模型Med-PaLM的进化过程。结果研究人员发现，大语言模型构建的AI医生在很多方面与人类医生相当。

在这篇最新的论文中，谷歌和DeepMind科学家团队介绍了全新的MultiMedQA评估基准。

该基准结合了六个现有医疗问答数据集（MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU），涵盖专业医学、研究和消费者查询等多个方面，以及一个全新的在线搜索医疗问题库数据集HealthSearchQA，力图从多方面把AI培养成一名合格的医生。

此外，该团队提出了一个基于人类评估的框架模型，该模型包括多个维度，例如事实、理解、推理，以及可能的偏见。

该团队在MultiMedQA上对拥有5400亿参数的谷歌大型语言模型PaLM（Pathways Language Model）及其变体Flan-PaLM进行了评估。

在实验中，研究人员采用了提示策略组合，Flan-PaLM在每个MultiMedQA多选题数据集上都达到了极高的准确率，其中在MedQA（美国医学执照考试）上的准确率为67.6%，比之前的技术水平高出17%以上。

图片来源：Nature

论文指出，虽然Flan-PaLM在MedQA的多项选择题上表现出色，但它对病人医疗问题的回答却暴露出关键的差距。为了解决这个问题，谷歌科学家团队提出了指令提示调整，让Flan-PaLM进一步与医学接轨，产生了Med-PaLM。

在评估中，Med-PaLM表现令人鼓舞，一组临床医生对其回答的评分为92.6%，与现实中临床医生的水平（92.9%）相当。

图片来源：Nature

除了专家评估，研究团队还邀请了五名非医学领域专家（印度的非医学背景普通人）来评估答案。

结果显示，Flan-PaLM给出的答案在60.6%的案例中被认为是有用的，而Med-PaLM给出的答案准确度则增加到80.3%。同样，在90.8%的情况下，Flan-PaLM的答案被判断为直接解决了病人提出的问题，而Med-PaLM将这一比例提高到了94.4%，人类临床医生这一比列则在95.9%。换句话说，在直接解决病人问题方面，Med-PaLM几乎可以和人类临床医生的能力相媲美。

图片来源：Nature值得一提的是，这篇在Nature论文中描述的Med-PaLM模型于2022年12月推出，而在今年5月份，谷歌曾推出了升级版的Med-PaLM 2。

论文中显示，Med-PaLM 2是第一个在美国医疗执照考试（USMLE）类问题上达到专家级表现的大语言模型，能够正确回答多项选择题和开放式问题，并对答案进行推理，准确率高达86.5%，大幅超越了Med-PaLM以及GPT3.5。

论文称，虽然这些结果非常令人鼓舞，但现实中的医学领域是相当复杂的。因此，还有必要对该大语言模型进行进一步评估，特别是在安全性、公平性和偏见方面。在将这些模型运用到临床应用之前，还有许多限制需要克服。研究人员预计最新的这项研究将激发患者、消费者、AI研究人员、临床医生、社会科学家、伦理学家、政策制定者和其他利益相关方之间进一步对话和合作，从而负责任地将这些早期研究成果转换为真正的现实应用。

但不可否认的是，谷歌科学家团队的研究表明，随着模型规模的扩大和提示词的调整，其理解能力、知识回忆和推理能力均有所提高，这表明大语言模型在医学领域具有潜在的实用性。此外，研究团队的人类评估也揭示了当今大语言模型的局限性，也强调了评估框架和方法在为临床应用创建安全、有用的大语言模型方面的重要性。

原文链接：https://www.nature.com/articles/s41586-023-06291-2

热点标签

医药投融资进口药创新药审评审批仿制药医保

热门资讯

热点标签