人工智能正在催生与未来相关的最狂热畅想。
“重塑范式”,几乎所有人都以此来概述AI带来的冲击——以ChatGPT为代表的大语言模型或将重塑“人类与数字世界交互范式”,而2024年诺奖揭晓之后,AI for Science将成为新一代科研范式,也早已成为业界人士心照不宣的共识。
但不同领域的科研人员所感受到的助推是迥异的。人脸识别、智能家居、语音转录等领域已有人工智能产品相继落地的同时,一些“领域+AI”仍然在挑战与质疑中经受试炼。
譬如“制药+AI”。
对于不了解新药研发过程的人来说,创新药也许是巨大的“掘金场”。然而深入其中,会发现它是再悍猛不过的“吞金兽”——“十亿美金、十年、10%的上市概率”非但不是谵妄之言,甚至还不足以概述一款新药诞生的艰难。
在这样一个行业,每一个重大科学突破的诞生,都可能带来巨大的希望、继而催生出同样巨大的泡沫。
千禧年前,基因组学领域的发现曾让整个华尔街为之癫狂,数家基因测序公司的股票都在投机的狂热中被炒上巅峰;而从AlphaFold 2对蛋白质结构的高精度预测开始,药物研发开启了由CADD(计算机辅助药物设计)向AIDD(人工智能驱动药物发现)的转变,“AI制药”一度随之成为最有想象力的吸金石。
可高热褪去之后,人们渐渐意识到,“AI制药”是一个关乎“制药”而非“AI”的游戏,而AI,无法一夜之间撬开所有制药的秘密。
相较于“迭代”“剧变”与“颠覆”,这场“游戏”的本质更在于“渐进”“持续”和“重构”。此前接受采访时,深势科技创始人、CEO孙伟杰所表达的观点,也许更接近于AI在制药中的定位——“当AI成为药物研发自然且不可或缺的一部分时,AI制药就真正成功了。”
不过,以目前而论,距离抵达那个“涌现时刻”,还需要漫长的时间。
缩短周期最核心的要义是什么?答案也许颇为朴素,甚至不是算法、算力、数据、模型这些人们通常讨论最多的东西。深势科技另一位核心成员、药物研发联席总裁朱正诞,对此的回答是:定义问题、拆解问题、解决问题,并形成良性循环。
2月最后一天,关于AI在制药不同环节的应用成熟度、AI制药正在遭遇的瓶颈和挑战、其成果将最先在哪些细分领域涌现,关于对合理商业化路径的思考……朱正诞向同写意分享了自己的思考。
这位年轻的科学家身上展现出某种实干的、知行合一的特质,基于对问题的定义、拆解而做出回应,也贯穿了他与同写意的整场对谈。以Q&A的形式,我们将整场对谈整理如下。
1
从CADD到AIDD
突破时刻在“科学大模型”
Q:近几年我们经常说制药学正在经历从CADD到AIDD的转变。您认为过去几年里,AI制药领域最具突破性的科技发现是什么?
朱正诞:这个问题其实不好回答。突破性的发现需要相关行业的共同认可,但这里面其实有两个不同的时间尺度。一方面,AI技术本身的迭代与验证是极为迅速的,从整个AI的技术层面上讲,过去三到五年的突破性发展无疑是语言大模型和生成式人工智能;但落实到药物研发行业,不少资深从业者将药物进入III期临床或者上市作为技术突破的验证标准,这是相对缓慢的。综合两个维度去考量,我们很难去界定AI界和制药界共同认可的技术突破的那个“标准”。
考虑到这点,如果我们退而求其次,去讨论更大层面上的、AI对生命科学这个领域科研的整体赋能,我可能会把这里的“突破性技术”定位到科学大模型的出现和发展。
过去的三到五年,在生命科学、物质科学领域,以AI技术去学习底层的科学/物理规律所造就的一系列科学大模型,在多个领域都取得了比较好的突破和发展,其能力得到验证。
Q:近年以来,“AI正在助力药物研发全流程”似乎成为了一种常见论调。但在不同制药环节,AI的应用成熟度是参差不齐的。
朱正诞:我觉得这可能更适合去问DeepSeek这样的大语言模型,它的归纳性或许会更好。从个人的角度来讲,我会觉得临床前的应用更为成熟,这一块从前期的靶标验证到分子推进再到后面的评估、甚至生产工艺优化,在多个环节的赋能方面都已经有比较好的尝试。
临床应用不是我的领域,但可以肯定的是AI在包括临床方案设计、报告撰写、患者招募、市场化策略的制定中都能发挥重要的作用,在更广阔的领域也会扮演很重要的角色。
Q:为什么临床前和临床阶段的应用成熟程度会呈现出差异?
朱正诞:以非常个人的观点而论,过去20年间,针对靶标发现、分子发现及设计等工作的临床前阶段的工作,CADD那套东西已经有了对其逻辑线或者工作流的拆解。关于计算技术对于临床前场景的赋能,大家是有共识的。
在这一种情况下,AI作为一种新的技术,为同一模块或相应流程下的问题提供了更好的解决方案,所以大家的尝试意愿会更高,应用方面也会相对完备一些。
至于AI在临床阶段的应用,它缺乏类似的一种沿袭,发展时间尚短。包括一些公司在做的临床报告撰写等这类工作,其实也是基于生成式大模型的发展而生发的。
Q:在药物研发的细分领域,AI介入程度有何不同?似乎大家都更倾向于认为AI制药在大分子领域走得相对远一些。
朱正诞:在小分子、大分子这样的领域,都已经有一些比较成熟的尝试。但因为像蛋白、抗体类的大分子药物本身是由氨基酸、序列所构成的,所以在某些维度的设计之下,它们的组成模块会更简单一些,而小分子所涉及的整个化学空间相对是比较广的,涉及到的情况也会更为复杂。
2
最大的挑战在“Know-how”
Q:就AI对临床前药物研发的赋能而言,目前业界面临的最大挑战是什么?
朱正诞:从行业的实际情况来看,我觉得目前面临的最大挑战,并不仅仅是技术本身的成熟度,而是行业如何在“持续落地中积累信心”这一长期路径上形成投入的动力,从可行性的角度,我觉得是这里最关键的是“Know-how”。
从市场和行业预期的角度来看,AI技术需要以一种相对冷静和现实的态度来发展。在制药这种高度复杂的领域中,寄希望于借助AI工具完全解决问题并不现实。但技术的生命力来自不断的落地与实际产出的展示,只有当行业在具体应用中持续获得信心,才能驱动源源不断的投入。
所以,从技术落地的逻辑来看,这里的核心是要在奉行极致的实用主义的基础上,强化对制药领域的“Know-how”。多学科背景下的经验和知识整合(如生物学、化学、药理学的交叉)是AI实现价值的关键;而不是单纯依靠数据就绪或模型强大来解决问题。
事实上,绝大多数情况下,大家可能都会觉得只要数据就绪,基于此构建的模型就能够在某一个垂直领域解决一些问题。但实际上数据就绪在95%的情况下都是不具备的,这种时候就需要我们对于问题本身具有比较强的拆解能力,才能找到最切实可行的切入点。
Q:总结来看,挑战似乎一方面关乎在学科交叉背景下如何做到“Know-how”,另一方面在于在科技的渐进性与市场预期之间求衡?
朱正诞:对。这涉及技术层面和应用/商业化两个层面。
Q:如何在技术层面做到“Know-how”?
朱正诞:最直接的方法是有一支多学科的团队,成员相互之间能懂对方的“语言”,也可以“翻译”对方的需求,然后在项目落地的过程中不断磨合。再往下探一层,可能出现一到两个多种学科都懂一些的人(帮助磨合/引导)。
3
关键在于“转起来”
Q:一个老生常谈的问题:AI制药中我们经常会强调既有数据之不标准、可用数据之稀缺。您如何看待与此相关的问题?如何破局?
朱正诞:这个情况是存在的,这里其实总体上是两种思路。
一个是通过更好的基座模型及领域know-how作为切入点,最大化有限的数据的价值,获得足够实用的工具。我们过去的经验中,“预训练+微调”的策略是make sense的。
我们过去做过的尝试是:先依据对项目的know-how确定一个特定的目标任务和切入方向,然后从公开数据中筛选出与之相关的“子集”,并以此构建基准模型。这种公开数据在定性趋势方面通常是可靠的,尽管其定量性能可能有偏差,但仍可为建模提供初步支持。
与此同时,当实际项目开始产生一定量的实验数据,比如10到20条,我们会用这些数据对基准模型进行微调,微调之后的模型并不野心勃勃地针对行业内一些大的问题实现“大而全”的效果,而是就专注于解决这个项目中的子任务或相关问题。实用主义地看,基于项目微调后的模型往往能帮助我们快速得到有用结果。
第二个思路也比较直接,就是去获取高质量的数据。
比较直接的是通过与企业合作获取其实验数据,这里面我们也有过一些尝试,但说实话数据本身是企业的核心资产,所以这条路径其实并不足以让“数据飞轮”充分转起来。
所以,从挖掘和产生高质量数据的角度,核心有三个策略:
“能挖的挖完”,即通过多模态科学文献大模型充分挖掘目前来自专利、文献中的数据并进行结构化的整理分析;
“能算的多算”,即通过物理模型计算产生特定维度的高质量数据,比如自由能微扰(FEP)这样的方法产生的技术数据质量其实是足够高的;
还有就是在特定领域,用成本足够低的前提下自己产生干湿闭环的数据。例如环肽的酰胺化反应能够实现较好的自动化,我们可以基于此以较大通量去获取一个批次的环肽的活性数据、渗透性数据等,并以之反哺自己的模型。在这种高通量的逻辑下,这样的环肽相关数据获取的成本相对是可控的。
Q:我们经常会讲“干湿闭环”,以指称通过AI模型预测和实验验证的迭代,加速药物发现和优化的过程。实际中,“干湿闭环”的流程优化具体进展到了什么样的程度?到什么程度才能够在基底层面助力药物研发?
朱正诞:我觉得干湿闭环的本质是,通过将以AI模型做核心的理论预测,和实验验证和数据收集结合,并持续循环迭代,让运转本身对模型进行反哺,也就是说,真正的“闭环”在于RDMTA(Research、Design、Make、Test、Analysis)循环的高效联动。
狭义来看,如果单看计算设计-实验验证这样的案例的话,其实我们和整个行业都有过相对比较多的探索和成功案例,包括我们过去在固有无序蛋白、最近一些合作的分子改造项目中都有过比较好的尝试。但从让整个RDMTA“转起来”,回过头优化模型本身的角度来看,这里其实还需要不少额外的考虑。
围绕于此,我们其实在多个模块进行了尝试。例如在research这块,足够多的案例、知识尤其重要,那么我们就需要一套科学文献大模型,去构建一个基于文献和专利系统的、结构化的知识库,构建一个专家系统和推荐系统;而在design模块会比较系统地涉及到围绕着生命科学关注的蛋白、基因、原子、分子尺度的各类科学大模型的构建工作,相应的智能化的分子设计方案其实已经有过比较多的落地案例尝试;而后在Make和Test端,会涉及高通量的、自动化的、合成和测试的表征;然后在Analysis端,再回过头去做结构化数据的收集和模型的迭代。
这种情况之下,无论是从推荐系统还是设计系统还是整个数据闭环的角度,把整个RDMTA的循环都“转起来”,才能够真正去实现较为理想中的效果:模型足够可靠,所产生的例子也绝不是孤例。
Q:这是一个未来发展的方向,现在还没有抵达这个高度。
朱正诞:我觉得这可能是在未来一到两年就会快速崛起、发展的一个方向。
4
从实用出发做产品
已累计超100家客户
Q:深势科技在生命科学领域的平台是如何赋能制药的?各自形成了何种体量的客群?
朱正诞:目前深势在生命科学领域布局有两个主要平台,一是Hermite®,一个是RiDYMO®。简单来说,前者是软件平台,后者则是提供解决方案的平台。二者已经有超出100家客户。
Hermite®的使命在于对传统的CADD工具进行全方位升级,适用于目前智能化设计阶段的多模态药物开发,贯穿药物发现整个流程。目前国内60%的头部药企都在用,有十门以上的高校课程将之作为教学工具。
除了大家都会强调的模型算法本身之外,我会觉得从赋能角度来看,最重要的点是:在工程化层面做得足够丝滑和流畅,以及与业内伙伴形成足够多的基于反馈的迭代。因为软件做出来是给人用的,评估它的标准并不在于其中某一个模块是否足够fancy,而是用户到底能否用起来、好不好用。
RiDYMO®是基于深势科技在生物医药领域构建的大模型体系和跨学科的团队多年深耕而构建的高质量Hit发现平台,更着重于提供解决方案。所以它更加面向业内一些大家比较关心的问题,比方从零到一的难成药靶点发现,对c-Myc这样的固有无序蛋白构象空间的探索等,都是有较为成熟的尝试的。商业化层面其实也得到了行业不少合作伙伴的认可。
RiDYMO®的运作本质上还是落地到行业的“Know-how”,因为其实针对一些问题的拆解做完之后,会发现其实是整个过程是在根据我们对行业的认知将复杂问题简单化,技术本身反而并没有那么fancy。
Q:Hermite®所积累的客群和由此而来的良性生态似乎成为了其核心引力之一。为什么它能够做到现阶段的体量?
朱正诞:简洁易用、功能全面以及背后的敏捷开发和工程化保障,这样也是一个良性循环:客群的增长和口碑的积累都转变成为说服力的一部分。
商业化角度最终还是要落实到性价比的,比如国外一些头部公司,无论在案例背书还是实际应用,都已经较为成熟,但相应地它的定价也较高。而在Hermite®中,我们能够以相对比较能够被接受的价格做到类似甚至更好的效果,且哪怕是对FEP这样消耗算力比较多的模块,我们也能够支持更大通量的计算。
Q:目前客群中国外客户占比怎么样?未来是否会将海外市场作为目标之一?
朱正诞:从商业化软件的角度来讲,我们目前有少量国外的用户。这是我们未来会探索和努力的方向之一。
Q:深势目前的商业模式是怎样的?
朱正诞:生命科学领域的商业模式其实已经有比较成熟的参考,但万变不离其宗,主要就是两块模式:产品,以及服务。
产品方面也有两块:一块是比如说深势在做的软件及相关服务;另一块就是自研管线及相关业务。对于深势来讲,我们希望做到两手抓两手都要硬。
第二就是服务,比较典型的如解决方案的设计。当然,其中也会有更灵活的模式,例如可能客户会提出定制化模型这种同时涉及软件、服务的需求。
Q:就目前来看,市场付费意愿如何?
朱正诞:我觉得只要提供的工具能够解决合作伙伴在研发当中遇到的问题,市场都会有付费意愿,大家期望的本质其实还是落实到付费后“能不能解决问题 ”上。
Q:您如何看待现阶段AI制药融资环境的特点?以及未来怎样的公司更有可能存续发展?
朱正诞:整体来看投资人们“稳”了下来。对于(深势这样)成立相对有一些年限的公司,投资人的逻辑主要是看商业化和自己造血的能力。
站在我的角度来讲,只要技术方案有足够的吸引力,能够让合作伙伴看到源源不断的希望,并且能够把前述的RDMTA“转下去”,公司有持续自我造血和商业化的能力,团队能够维持得足够久,就能够有足够的confidence成为这个领域的先驱,而不是先烈。
简单来说就是在技术突破带来的时间窗口内,形成的持续正向商业循环,才是团队存续真正的核心壁垒。
Q:深势也有在做一些开源相关的工作,现阶段您如何看待开源与商业化之间的平衡?
朱正诞:在开源生态方面,我们跟全球很多合作方都有比较密切的合作。开源对开发来讲是有帮助的,这里面涉及两方面。
一方面,举例来说,如果说我们把像Uni-Mol(深势·宇知科学大模型之一)拿去做开源,那就可以依赖于整个社区去探索Uni-Mol在多个垂直领域的应用,大家也可能会对反过来对模型及其相关优化给出许多想法,进而刺激该模型在整个生态中的应用。
另一方面,回归到软件本身,软件的壁垒不仅仅在于工程化的能力,也在于使用层面的易用性、后端强劲算力的支撑等多方因素。这些东西并进之下,才能支撑足量用户。因此,从开源平台拿到的东西尽管能用,但从应用端的角度来讲不一定容易配置和好用。
就现阶段而言,开源和商业化之间更是相互促进的关系。