作为典型的依赖于行业know-how(专业技能)、市场价值巨大的行业,医疗一直是AI公司们试图颠覆的领域,这一趋势在当前大模型浪潮下表现得尤为显著。
OpenAI、Anthropic、谷歌等巨头都将医疗视为重要落地领域,不久前,月之暗面被曝正在布局AI医疗产品,成为继百川智能之后又一押注医疗的大模型六小龙。
如果我们认同这样一个基本判断:大模型最终会通向AGI并深度重塑医疗行业,那么什么样的企业能够在这场变革中真正受益?
答案将是那些掌握数据的企业,AI在制药/医疗领域的核心竞争力正在从算法本身转向高质量数据的获取、整合与应用能力。
进一步地,数据能力的背后,凝结着企业在细分赛道的资源网络构建、行业认知深度以及业务场景的长期打磨,正是这种"苦活"和"累活"才能构筑起真正的竞争壁垒。
而在数据领域,Owkin是最具代表性的公司之一。经过近9年的积累,公司拥有行业中最为庞大的多模态数据集之一,并基于此构建多元业务。
近年来,得益于大模型在生物医药领域的渗透,Owkin的价值愈加显著,与赛诺菲、BMS、默沙东、阿斯利康、安进、ADC Therapeutics、Absci等公司达成合作,被法国总统马克龙在人工智能行动峰会上提及。
Owkin商业化进程稳步推进,据创始人透露,公司当前收入规模已位居行业首位,尽管支出巨大(仅建设数据库就累计投入近1亿欧元),公司仍保持充裕的现金流,现有资金储备可支持未来三年运营发展。
在我看来,Owkin对于AI医疗的价值,就像Scale AI之于人工智能一样,公司为药企和医生收集、标记和定制数据,配合源源不断的开源模型,任何组织都可以便捷地建立AI产品来赋能业务。
就如同2016年成立的Scale AI 以自动驾驶数据标注起家,但真正迎来腾飞是因为大模型热潮一样,我们认为Owkin也正处在价值重估时刻。
在AI变革医疗保健的这场“淘金热”中,以Owkin为代表的企业将成长为具有独特价值的“卖水人”,进入爆发期。
01
数据,数据,还是数据!
当我们谈论AI将如何变革医疗保健时,基础模型(Foundation Models)是如今最为核心的话题之一。
与仅针对特定任务的小模型不同,基础模型在大型数据集上进行训练,并支持跨领域的应用,如预测蛋白质结构、表征细胞状态或预测基因功能等。
据统计,仅在2024 年,生物技术领域至少出现了5个参数量超过10亿的基础模型,这些模型在接近100万亿个DNA碱基和上百万张病理切片的数据集上训练。
我们认为,不同于前几次AI制药浪潮中兴起的分子动力学模拟、虚拟筛选等技术,基础模型才是真正的游戏改变者,其影响将远超单一环节的效率提升,将重构制药业。
图:基础模型在生物医学发挥的作用
可以说,基础模型正改变我们对生物学、医学的认知,其带来的冲击可以类比为GPT出现对AI领域产生的颠覆性影响。
拥有庞大参数的基础模型的快速发展(如11亿参数的H-optimus-0、400亿参数的Evo2、2100亿参数的的xTrimo V3),背后是对海量高质量数据的刚性需求。
当我们复盘GPT引爆的AI产业变革时会发现,虽然大模型初创公司点燃了这场技术革命,但市场绝大部分利润却在向算力和数据倾斜,掌握这些关键要素的企业在这波浪潮中构筑了更深的护城河。
以Scale AI为例,其为AI公司提供数据标注服务,成为此次AI热潮中受益最多的企业之一,公司年度经常性收入(ARR)从2018年的1700万美元增长至2024年的10亿美元,公司最新估值达250亿美元。
图:数据标注公司Scale AI的业绩增长
而在生物医药领域,对数据的渴求有增无减,不同于通用大模型使用公开网络数据进行训练,生物学、医学的数据面临更加严重的困境:
一方面,获取高质量的生物医学数据需要更高的成本和门槛
另一方面,有价值的数据往往分散在各个医疗机构和药企中,形成了严重的“孤岛”现象。
正如Recursion的联合创始人兼CEO所说:“要构建生物学中的基础模型,您将需要大量高质量的数据。除了少数问题(例如蛋白质折叠)之外,这些数据目前不存在于公共领域……只有那些能够在规模和质量上生成数据的人才能达到大多数药物发现和开发问题的那个点”。
鉴于此,专注于人工智能的药物研发/医疗保健公司显然必须优先关注数据,以实现真正的差异化。
02
Owkin:二代创业,重塑医药数据利用方式
Owkin联合创始人Thomas Clozel出生在一个显赫的生物医药家庭,其父母创立的罕见病疗法公司Actelion不仅成功上市,还开发出三款重磅药物,最终在2017年以创纪录的300亿美元被强生收购——这一交易至今仍是欧洲生物科技领域最大规模的并购案例。
也许是受到父母的影响,Clozel同样选择了医学道路,他于法国巴黎内克尔儿童医院接受了6年的住院医师培训,专攻临床血液学,之后他在巴黎的亨利·蒙多尔医院担任临床助理教授。
基于多年治疗血液癌的实践,Thomas Clozel深刻认识到现有治疗体系存在包括诊断工具不足、药物与患者匹配不精准等缺陷。
为此,他提出构建一个完整的端到端制药生态系统,将生物标志物发现、诊断技术开发、靶向药物研发和患者分层治疗有机整合,从而彻底改变传统模式。
之后,Thomas Clozel通过朋友结识了巴黎高等师范学院助理教授Gilles Wainrib,这位专注于医学领域AI应用的学者与Clozel理念一拍即合,两人随即共同创立了Owkin。
图:Thomas Clozel(左)和Gilles Wainrib(右)
面对医疗数据孤岛这一核心痛点,Owkin创新性地提出以联邦学习结合迁移学习构建解决方案。
联邦学习是谷歌提出的一种分布式机器学习技术,允许多个设备或服务器在不共享原始数据的情况下协同训练模型。
这一技术的核心在于“数据不动,模型动”,仅共享模型参数而不是数据本身,从而解决了医疗领域尤为重要的数据隐私问题。
进一步地,通过迁移学习,将在源任务(如自然图像分类)中学习到的通用特征表示或模型参数,迁移到目标任务(如医学影像分析)中,从而在数据稀缺的场景下显著提升模型性能。
一个典型的策略是,先在大型通用数据集(如ImageNet)上预训练深度神经网络(如ResNet),随后将模型迁移到医学领域(如CT图像),仅需少量数据(几百张甚至更少)进行微调即可。
这样,Owkin做到了在保证数据隐私的前提下实现共享协同,同时降低了机构应用AI的门槛,推动数据更加高效、安全地利用。
03
赢得行业信任,构建全球最大网络
具体来看,Owkin围绕药企和医院构建了一个联邦研究生态系统,包括四个关键组件:Owkin Loop(网络,提供数据互联互通)、Owkin Connect(联邦学习框架)、Owkin Studio(AI软件工具开发平台)和 Owkin Lab(专业知识)。
图:Owkin的联邦研究系统
其中Owkin Connect是核心,Owkin 投入了三年时间来开发,使之成为一项保护隐私、可追溯、安全的技术框架,确保网络中的数据在确保隐私和合规的条件下被使用。
之后,公司还开发了Owkin Connect的开源版本Substra,这是一个即用型联邦学习软件,提供灵活的Python接口和一个用于大规模运行联邦学习训练的Web应用程序。
参与Owkin Loop 的研究人员可以使用Owkin Studio来标注多模态数据集,访问、构建和解释机器学习模型,通过Owkin
Lab(包括湿实验室)还可以寻求专家团队的帮助。
为应对网络安全威胁的快速增长,Owkin特别组建了由数十名专家组成的专职信息安全团队,以保障数据系统的安全性,巩固合作的信任基础。
目前,这个系统吸引了诸多医学研究机构加入,已成为全球最大的人工智能医疗研究网络,全球合作伙伴超过83家,覆盖全球排名前二十医疗机构中的一半。
药企同样对此相当热情,2019年阿斯利康、拜耳、勃林格殷格翰、葛兰素史克、强生、默克、诺华等10家顶级制药公司共同启动MELLODDY项目,目标是在不牺牲隐私的情况下利用大规模数据库进行AI训练,作为该项目的技术协调方,Owkin为其提供了关键的联邦学习解决方案。
如今,依托其构建的全球医疗数据协作网络和沉淀的模型开发能力,Owkin与合作伙伴共同推动了多项突破性成果,如:
MesoNet:通过数字病理切片精准预测恶性胸膜间皮瘤患者的治疗反应和预后,更好地预测和解释间皮瘤患者总生存期
HE2RNA:通过组织病理学图像直接预测基因表达水平,更高效地识别和解析肿瘤微环境中的分子特征
Histomics:通过高分辨率病理图像智能分析肿瘤微环境特征,更精准地量化评估肿瘤异质性和免疫细胞浸润状态
在数据资源建设方面,Owkin通过与全球顶尖医学机构开展合作,依托7000例患者数据打造了目前肿瘤学领域规模最大的空间组学数据库MOSAIC,涵盖7种癌症类型。
04
布局三大业务,顶级药企当客户
Owkin的商业模式较为清晰:管线、服务与工具,瞄准药物发现、临床试验和生物标志物诊断三大领域。
公司开创了两种新的药物发现引擎,用于提供新的药物靶点并优化药物定位:
TargetMATCH:它使用多模态患者数据作为输入,并输出识别最佳治疗靶点和匹配的患者亚组
DrugMATCH:利用知识图谱、生物医学文献和多模态患者数据来识别现有药物的新适应症和相关亚组,并提高治疗效果
基于此,Owkin在内部开发了多个管线,其中OKN4395是公司从Idorsia授权而来,作为一款用于治疗实体瘤的EP2/EP4/DP1三重抑制剂,这款分子具有潜在FIC(同类首创)属性,目前正在开展国际多中心la/lb期临床试验。
图:Owkin的管线
同时,Owkin也将AI药物发现平台以服务的形式赋能药企,典型案例包括其2021年与赛诺菲达成的战略合作,涵盖四种癌症类型的药物发现与开发计划,协议总价值达9000万美元;之后双方于2024年进一步将合作范围拓展至免疫学领域。
而除了早期的药物发现,得益于医疗机构沉淀的多模态患者数据与临床研究需求具有天然的契合度,Owkin在加速临床试验方面也可圈可点。
针对临床试验的不同时期,公司提供相应的优化手段:
Ⅰ/Ⅱ期:通过AI外部对照组为单臂 I/II 期临床试验提供早期疗效估计
Ⅱ/Ⅲ期:开发生物标志物模型以指导试验招募,匹配更精准的患者群体
Ⅲ期:使用预后生物标志物模型分析外部数据识别关键预后因素,从而提升统计效力并优化患者入组标准。
2022年,BMS宣布与Owkin合作,共同设计和优化心血管药物试验,双方利用机器学习来增强临床试验的设计和执行,包括优化终点定义、患者亚组识别和疗效评估。
此外,Owkin持续推进AI驱动的数字病理诊断创新,其核心产品MSIntuit® CRC代表了人工智能在肿瘤诊断中的重要突破。
Owkin开发的MSIntuit® CRC是全球首个获得欧盟CE认证的AI辅助MSI预筛查工具,仅需常规苏木精-伊红 (H&E) 染色切片即可高效识别MSI高风险患者。
图:MSIntuit® CRC
其训练数据来自美国24家医疗中心的859张全切片图像,并在600例真实临床病例中验证了其可靠性——作为预筛查工具,MSIntuit可以排除几乎一半的非MSI人群,同时正确分类超过96%的dMMR/MSI患者,与目前的金标准方法相当,能够减轻临床实践中的MSI检测负担。
2023年,Owkin牵头启动了PortrAIt项目,这项价值3300万欧元、为期五年的研究计划,汇聚了法国古斯塔夫•鲁西癌症研究中心等国际顶尖癌症研究机构,致力于在癌症诊断、新型生物标志物发现和患者预后预测领域开发不少于15个AI工具。
图:Owkin正在开发的诊断工具
随着与默沙东、阿斯利康等企业的合作深化,Owkin正将这AI工具拓展至更多癌种,推动数字病理与AI的融合,让精准诊断更高效、更可及。
05
大模型风起,Owkin再进化
在大模型在医疗领域狂飙突进的背景下,Owkin近期密集推出一系列举措,以快速响应这场颠覆性的行业变革。
今年5月,Owkin推出K Navigator,这是一个AI驱动的生物医学科研助手,为研究人员免费开放以加速科学发现。
K
Navigator通过自然语言交互,高效梳理2650万篇科学文献,挖掘潜在研究方向,并基于19个生物医学数据库的数以千计患者数据提供精准分析,帮助研究者快速分析数据、优化研究问题并获取洞见。
公司计划今年晚些时候推出K Pro,这将是拥有具有一系列Agent的平台,可用于解决药物发现等复杂挑战。
今年1月,Owkin推出操作系统Owkin K 1.0,该系统整合了公司成立八年来的技术沉淀,可以访问联邦网络中超过一百万名患者的精选数据,通过先进的模型进行分析,并通过湿实验室进行验证迭代,实现“数据—模型—实验”飞轮。
在公司的愿景中,Owkin K 2.0将使得AI驱动的自动化实验室成为可能,届时AI Agent将具备自主设计、执行和优化研究项目的能力,路径指向一个更宏大的目标——构建生物学领域的通用人工智能(AGI)。
去年,Owkin还参与投资孵化了Bioptimus,该公司由来自Google DeepMind和Owkin的专家组成,将创建首个覆盖基因组学、蛋白质序列、细胞结构、表观遗传状态、细胞图像、质谱、空间转录组学等多模态生物学基础模型,种子轮融资3500万美元。
图:Bioptimus推出的H-OPTIMUS-1模型,在超过100万张数字病理图像上训练而成
Bioptimus联合创始人兼CEO Jean-Philippe Vert也是Owkin的首席研发官,从某种意义上说,这更像是从Owkin分拆出的一家公司,这样的架构设计方便专业化运作和管理,又有利于吸引外部资源和顶尖人才。
凭借其独特的医疗数据资产,Owkin进军生物基础模型领域可谓水到渠成,相较于大多数团队依赖于公开且模态单一的数据集,公司具有天然优势。
以上动作,揭示出Owkin的一个更大的战略布局:借助大模型浪潮,公司正在将过去积累的行业经验沉淀为自动化的解决方案,同时通过构建垂直领域基础模型,进一步巩固其在行业的领先地位。
06
写在最后
当行业太多注意力放在了算法性能之时,数据的重要性值得被重估,尤其是在Scaling Law(扩展定律)的作用下,数据往往能带来比单纯优化算法架构更显著的边际收益。
从商业逻辑来看,开源算法的涌现正在颠覆模型的价值标准,而在数据层面上,一些基本的经济规律依然奏效:规模经济带来边际成本递减,转化成本构建用户黏性,稀缺的医疗数据形成天然的资源垄断优势,这一切都有利于Owkin。
从长远来看,Owkin正在构建一个日益壮大的AI生态系统——整合跨国药企、生物科技公司和顶尖医疗机构的资源,并形成强大的协同效应。
而作为这个生态系统的核心枢纽,Owkin不仅将持续享受网络效应带来的价值增长红利,更将在每次技术范式中占据独特的战略卡位,保持在AI医疗变革过程中的优势地位。