医保数据作为国家战略资源的重要组成部分,其质量对于确保医保政策的科学性、基金运行的安全性以及医疗服务的精准性具有至关重要的作用。随着医保标准化、信息化建设的深入推进,如何构建高质量医保数据集已成为当前医保数字化转型的核心议题。2025年8月26日,国务院印发《关于深入实施“人工智能+”行动的意见》,其中明确提到“以应用为导向,持续加强人工智能高质量数据集建设”“打造更有品质的美好生活,有序推动人工智能在辅助诊疗、健康管理、医保服务等场景的应用”。国家医保局自2018年成立以来,大力推进医保数据标准化、平台化和智能化建设,通过全国统一的医保信息平台、先进的数据治理技术以及跨领域的协同机制,医保数据的质量与应用价值得到了显著提升,为医保领域深入推进“人工智能+”行动奠定了坚实的基础。
医保高质量数据集是智慧医保新基座
数据是指以电子或者其他媒介对数字、图形、音像等信息的记录,并且在2020年,数据已成为继土地、劳动力、资本、技术之外的第五大生产要素。数据集是数据集合或数据记录的形式,也就是说,数据集是按照一定的主题将数据进行汇聚的集合。高质量数据集是指具有一定主题,可以标识并可以用于人工智能训练、验证及测试等处理过程的数据形式,并且在完整性、规范性、准确性、均衡性、及时性、一致性、相关性等多个方面都达到了较高标准的数据集合。高质量的数据集是一个描述性短语,泛指任何质量较高的数据集合,无需严格符合专业标准,可能仅基于主观评价或局部需求。高质量数据集和高质量的数据集区别在于,前者强调标准化与认证,后者侧重通用描述;前者标准化程度高,需符合国家标准(如《高质量数据集建设指南》),后者可能仅满足局部需求;前者直接支撑AI训练或决策(如医保欺诈检测模型),后者多用于常规业务分析。
在医保领域,构建高质量医保数据集具有举足轻重的意义。首要之处在于,这样的数据集能够为医保领域的人工智能模型打下坚实的训练和测试基础,从而全面提升模型在国家医药集采、医保智能审核、支付方式改革、医疗费用控制及医保公共服务等多个方面的效能,有力推动医疗保障体系朝着更加精准、智能的方向发展。
其次,构建高质量、标准化和规范化的医保数据集,相当于掌握了一把开启各地医保信息系统互通之门的公钥。这不仅能够促进全国医保数据资源的深度整合与高效共享,还能显著提升医保数据的利用率,为全民提供更便捷的医保服务。
再次,医保高质量数据集在健康中国战略实施方面具有广阔应用空间。例如,基于医保全口径(门诊+住院+药店;基本医保+商保)结算数据绘制各地区健康影响因素图谱,进而极大增强健康服务与保障服务的能力与效率。
此外,高质量数据集还能为医保政策的优化提供数据支撑,通过深入分析医疗行为、基金使用效率等关键指标,助力医保决策科学化和精细化,促进各地相关政策措施优化更加精准高效,健康产业布局更加科学合理。因此,构建覆盖全面、标准统一、安全可控的医保高质量数据集,是推进智慧医保发展的关键环节,也为未来人工智能在医疗保障领域的广泛应用奠定坚实基础。
医保高质量数据集建设具有较好基础
目前,医保高质量数据集建设具备较好的政策基础、技术能力与场景验证。通过强化全国统一编码体系,实现全国医保数据“书同文、车同轨”;强化数据治理规范,推动各级医保部门数据符合国家转换标准;强化规则体系建设,智能监管、国家医药集采、支付方式改革等领域成效显著;强化技术支撑,推动工具创新,AI与大数据技术、知识图谱、隐私计算等尖端科技在慢特病管理、政策咨询、基金监督等多个领域得以广泛运用,并成功孕育出多个高质量的数据集,为建设高质量医保数据集打下坚实基础。
医保基础“数据集”:作为医保业务运行的核心支撑,涵盖以下几类:医保基础信息数据集,包括参保人、参保单位、医疗机构、零售药店、医药企业、保险机构、金融机构、药品、医用耗材及服务相关方等关键信息;健康管理与真实世界数据集,包括参保人医保档案、慢病管理、健康干预效果等全生命周期数据;跨部门协同数据集,包括医保与公安、民政、卫健等部门共享的户籍、死亡、疾病监测等数据;区域医疗资源数据集,包括医疗机构服务能力、床位使用率、设备配置等资源数据;商保与医保融合数据集,包含经个人授权的医保结算数据与商保理赔信息等。截至2025年8月,全国统一的医保信息平台已覆盖超过13.26亿参保人群,为5000余万家用人单位、114万余家医院及药店、1.79万家药品及耗材相关企业及37.6万个药品耗材提供医保相关信息。
医保智能监管“数据集”:保障医保基金安全、提高使用效率的关键工具。涵盖医保基金监管知识规则数据集,包括国家医保局自2025年起分6批次发布的医保基金智能监管规则库和知识库信息;标准化处理的医保结算与费用数据集涵盖了门诊、住院、药品、耗材等所有类别的医保结算信息,详细记录了费用明细、支付标准及自付比例等关键数据。经标注后的异常行为识别数据:包括住院天数、检查检验频次、药品使用量异常,医保药品倒卖、重点药品监测等数据;基金运行监测数据,包括收入、支出、结余、可支付月数等;诊疗行为与临床路径数据集,包括电子病历、检查检验结果、医嘱信息等临床数据;药品与耗材使用数据集,包括药品采购、处方、使用频次及耗材消耗数据,详细关联医保支付标准、招标价格以及各地医保耗材支付政策和统计指标。
医保支付方式改革“数据集”:推动医保支付向科学化、精细化方向发展的专业数据资源库。医保结算清单数据集全面整合了医保结算所需的信息编码体系,涵盖病种分组数据以及基于医保四项编码的详细诊断信息;成本核算数据集精确映射资源消耗实况,细致记录了各类病种及医疗机构诊疗过程中的资源具体使用情况;效果评估数据集,支持支付政策优化,评估改革成效并据此调整政策;绩效评价数据集,驱动医疗质量提升,为医疗机构提供改进方向。
医保公共服务“数据集”:提升参保群众获得感、幸福感的重要载体。涵盖医保基础数据集,具体包含个人及单位的参保登记表、详尽的缴费明细以及实时的账户变动记录等基础参保数据;支付结算数据集:包括医疗费用报销记录、医保基金支付明细、异地就医结算数据等结算与支付数据;诊疗行为数据集:包括电子病历、处方信息、检查检验结果、手术记录等诊疗行为数据;影像数据集:包括通过全国统一的影像云平台归集的医保影像云数据;药品与耗材数据集:包括名称、价格、用量、适应症及限用规则等。商业理赔数据集:包括商业健康险的理赔记录与保险期限信息;社会经济数据集:包括地区人口结构、经济水平等。
医保高质量数据集建设五大关键技术
医保高质量数据集建设是医保标准化、信息化的核心,是医保科学决策、精准管理和创新服务的重要基础,更是支撑医保“人工智能+”的“数据养料”。根据2025年中国信息通信研究院、国家数据发展研究院等单位联合编制的《高质量数据集建设指引》,要将前文所述的医保基础、智能监管、支付方式改革、公共服务等方面的较高质量的“数据集”转换为高质量数据集,还需依靠以下五大关键技术。
数据采集技术:医保数据集建设的源头工程。数据采集是医保高质量数据集建设的基石,严格遵循“一数一源、多元采集、共享校核”原则,以保障数据的全面性、准确性和时效性。医保数据具有多源异构特点,通过全国统一医保信息平台,严格按照《医疗保障信息平台数据归集技术规范》要求,采用准时交换库数据归集和T+1交换库归集两种方式,对需要采集的数据按照明确的范围及具体方式进行归集。此外,实时动态采集,以提升数据的时效性。智能终端普及,进一步拓宽数据采集的来源。建立跨部门数据共享采集机制,有效消除信息孤岛。
数据转换技术:实现医保数据互联互通的关键桥梁。数据转换技术作为解决医保数据异构性的关键,是实现跨系统互联互通的核心,也是推动业务协同、深化价值挖掘不可或缺的基石。标准化编码转换是医保数据治理的基础。持续强化23项编码标准在全国推广应用,通过应用数据格式互转技术解决不同系统数据交换难题,通过接口标准的统一与开放促进医保数据的跨界融合与流动,通过语义层转换技术提升数据可理解性和可用性。
数据清洗技术:提升医保数据质量的核心手段。在医保高质量数据集建设中,数据清洗扮演着至关重要的角色,其核心目标是将不规范的数据转化为符合标准的数据。识别和分析脏数据是数据清洗的首要步骤,通过规则引擎与智能算法的结合,可以显著提高数据清洗的效率。此外,全流程质控机制确保了数据清洗效果的持续性和稳定性。为了支持大规模的数据清洗工作,专业的工具平台提供了必要的技术支撑。持续推进“月推送、季发布、年通报”的数据治理和定向发布机制,通过自动化工具实现脏数据率逐年降低。
特征选择技术:医保数据价值挖掘的科学方法。医保数据的高维性、稀疏性和复杂性使得特征选择成为挖掘其价值的关键技术。通过筛选与目标变量强相关的特征,特征选择能够提升模型效率、增强可解释性,并支撑医保基金监管、欺诈识别、政策优化等核心场景。如欺诈检测特征,涉及就诊行为指标,包括同一日内多次就诊、跨医院(科室)频繁就医,窗口期内平均每日费用、一次性最高消费金额等;涉及费用异常指标,包括药品费(治疗费)占比突变、费用增长比例超阈值等。
数据标注技术:医保数据智能化的关键支撑。数据标注是医保数据从原始到智能应用的关键桥梁,需建立科学标准体系和质量管理机制。多模态数据标注技术能够灵活应对不同场景的需求,而研发平台的优化则进一步提升了标注的效率与灵敏度。应用中,通过深度学习和知识图谱技术结合的混合模型(包括文本分类和核心词匹配)实现了病案自动编码。此外,基于标注数据构建的费用预警模型能够识别异常诊疗行为(例如“查体住院”),从而辅助医保基金进行精细化管理。同时,通过标注筛查未享受救助的参保人数据,能够主动推送救助信息,实现救助资金的精准发放。
地方实践探索
近年来,各级医保部门按照国家医保局统一部署要求,按照“标准化筑基、技术赋能、场景驱动”的成熟路径,不断强化数据治理积极探索“人工智能+”在医保领域的应用,有力推动了医保改革、管理、服务等领域的场景创新与应用,也为国家层面高质量数据建设及“人工智能+”行动积累了经验。
在咨询服务领域,杭州医保创新性地推出了AI数字人“依保儿”,基于垂域大模型技术,整合50万条医保语料,支持语音/文字交互,实现“即问即办”。通过对话自动完成的异地就医备案,办理时长缩短了80%,同时语音识别准确率达到了98.3%,极大地提高了备案效率和准确性。青岛、深圳等地推出的“医保政策智能问答助手”,涵盖了生育保险、慢特病申请等高频咨询问题,通过语义分析实现即时回复,并将结果直接推送至用户手机端,显著缓解了传统热线面临的咨询压力。深圳建立腾讯混元双AI引擎,支持微信端办理100项医保业务,如60岁老人通过语音完成异地就医备案,全程不足1分钟。天津建设“津医保”APP智能服务,提供长护险政策问答、报销预估等功能,咨询服务的准确率高达95%以上。
在基金监管领域,天津医保建设AI监管引擎,本地部署人工智能大模型,通过知识图谱分析患者-医师-机构关系网络,定位欺诈骗保违规点。郑州医保建立AI双引擎系统,包含门诊慢特病智能审核模块,系统能够自动比对电子病历与认定标准,借助大模型深度学习慢特病规则库,并结合OCR技术高效识别医疗票据,从而实现了审核流程效率60%的提升。西安医保建设“智能问数”系统,融合大语言模型与BI工具,支持口语化查询基金收支、诊疗行为等数据,生成可视化报告。其动态知识图谱能自动关联政策依据,对异常诊疗行为线索的识别响应速度比传统方式快了3倍。
在支付方式改革的领域,各地医保部门依据病种分组数据以及成本核算数据,精确地制定出DRG/DIP的付费标准,有效地控制了医疗费用的不合理增长,同时也提升了医保基金的使用效率。此外,医保部门还结合效果评估与绩效评价的数据,不断地优化支付政策,以此有效激励医疗机构进一步提升其服务质量和资源利用效率。通过这些措施,医保部门致力于打造一个更为高效、合理的医疗支付体系,以更好地惠及广大人民群众。
在三医协同发展和治理领域,各地医保部门纷纷通过向医疗机构定向发布医保数据,助力其优化诊疗流程,提升医疗服务品质,精确掌握运营动态,实现资源高效配置;重庆等地通过对药品耗材使用情况、费用结构分布及治疗效果数据的深入剖析,为医药企业提供了洞悉市场供需动态的窗口,从而有效指导了产业资源的优化配置;海南等地依托医保真实世界数据集,汇总了药物和医疗器械在临床应用中的效果和安全性数据,为医药产品的研发与评价奠定了坚实的数据基础。
在多层次保障体系建设领域,医保数据正与其他行业数据深度融合应用,共同孕育出一系列创新服务与商业模式。如北京市医保局推动的医保和商保同步结算,使得患者在医疗机构端能够实现双险同步结算,提供了一站式同步结算服务,实现了“免材料、秒报销”的直赔服务,大幅缩短了报销时间。上海市提供部分透明脱敏公共基础数据,支持医保数据与医保以外的数据跨行业融合。这类跨界数据融合,在金融保险、健康管理、互联网医疗等新兴领域播撒创新的种子,孕育出一片片充满活力的发展绿洲,有望培育出一批基于医保数据价值挖掘的新业态、新模式。
当前,医保从建设高质量的数据集到高质量数据集还有一定差距。未来,随着数据政策和标准体系的不断健全,数据要素市场的日益完善,医保部门将不断加大力度,持续推进高质量数据集的建设,进一步加强技术融合创新,致力于构建智能化、高效率、安全可靠的数据治理技术体系;进一步完善标准体系,打造跨部门、跨区域的数据互联互通机制;进一步强化安全技术防护措施,并推动隐私保护领域的创新,不断拓展医保数据的应用范围和场景,充分释放其作为关键生产要素的巨大价值;进一步释放高质量数据集在精准监管、科学决策、产业创新等方面的价值,为医保高质量发展提供坚实的数据基础,进一步促进数据、技术、场景对接,不断增强群众医保获得感、幸福感、安全感。