南方财经全媒体记者郑玮 广州报道
两个多月前,最新一届诺贝尔奖的公布让人工智能成了“最大赢家”。
德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M. Jumper)两位人工智能科学家凭借其在蛋白质结构预测方面的贡献获得诺贝尔化学奖。同一个月,由北京大学深圳研究生院牵头、深圳埃空间生物科技有限公司(简称埃空间)参与的“提高蛋白质从头设计的效率和可控性”项目(简称项目),也拿下2024年“数据要素×”大赛全国总决赛二等奖。
“哈萨比斯和江珀研发的算法AlphaFold2,初步解决了蛋白质折叠预测这个困扰了生物科学界50年的难题,该成果的发表也对我们的项目起到了推动性作用。”项目负责人之一、埃空间CEO程功接受南方财经全媒体记者专访时表示,“但他们的算法预测的是蛋白的静态结构。我们团队则利用数据和算法共同驱动,进一步破解活性蛋白的运动规律,从而提升蛋白质设计效率,并实现蛋白的可控设计。”
这是广东在此次大赛中的12个获奖项目之一,支撑全省获奖量位居全国第一。广东共推荐24个项目参加全国总决赛,最终获得一等奖2个,二等奖5个,三等奖5个,技术创新奖1个,商业价值奖1个的佳绩。此前,广东曾举办2024年“数据要素×”大赛广东分赛,由广东省政务服务和数据管理局主办,广东省数据要素产业协会作为大赛的执行单位,在广州、深圳、佛山、珠海、江门、湛江6个城市设置了工业制造等12个赛道。
“榜首”背后,广东近年已在数据要素应用方面作出许多前沿探索,其中聚焦生物医药领域也明确提出,要建立健全生物医药全链条数据资源体系和数据汇交共享机制,并研究开展公共数据运营试点。
谈及未来“AI+生物医药”发展趋势,程功表示,生命科学领域解码的是生命语言,其需求数据具有种类多、获取难、积累慢、投入大等特点,未来建议广东可以进一步探索,在政府支持下推动若干企业成为行业高端CRO服务基础设施企业,以“蛋白大数据+自动化实验室”为载体,减少重复的硬件投入,增强AGI在指导药物设计、合成生物发现等方面的独特能力,“这或许会成为促进产业发展的关键路径”。
“数据+算法”驱动破解蛋白运动规律
南方财经:从目前研发成果来看,项目的核心优势和技术亮点是什么?
程功:项目在AI+蛋白质设计领域取得了重大突破,一方面是提出了一种新的冷冻电镜成像算法,即重建蛋白酶体底物降解动态自由能面,并收集了200T特有的四维冷冻电镜独有数据,成果发表在国际顶级刊物Nature 2019。
同时,团队根据该数据库模拟了蛋白酶体构象的连续体动力学变化,研发了国际领先(First in Class)的靶点机制,成果发表在国际顶级刊物Nature 2022。采用收集的独有数据集,我们进行多模态大模型训练,进行蛋白质设计、生成和筛选,并将成果进行了商业转化,目前已获得多轮天使融资,和多家企业开展了合作。
2024年诺贝尔化学奖得主、谷歌DeepMind的Demis Hassabis和John M. Jumper在2020年用研发的AlphaFold2,在蛋白质预测关键评估大赛(CASP)中表现优越,但是他们的算法预测的是蛋白的静态结构。
自然界中存在的活性蛋白都是运动的,如何了解蛋白的运动规律,对靶点和药物的研究非常重要。
团队利用数据和算法共同驱动,提升蛋白质设计的效率,并实现蛋白的可控设计。期待研发的药物对靶点的针对性更强,毒副作用更小,希望老百姓吃得起,在技术上保持国际领先。
南方财经:项目推进过程中,深圳埃空间生物科技有限公司与北京大学深圳研究生院之间的合作模式是怎样的?
程功:主要的合作方式还是偏向产学研,高校主要在做基础研究,公司则充分发挥灵活的市场机制,参与横向研发,在优势领域做了创新药自研,与其他创新药公司的合作研发模式都在逐步开展过程中,双方优势互补,还在不断探索模式过程中。
南方财经:通过此次合作参赛,团队有哪些收获?
程功:同台竞技的团队都非常优秀,包括华为,腾讯和平安等国际知名度非常高的头部企业,还有代表国家实验室或者院士团队出征的国内顶级科研机构。通过认真听取他们的报告,可以了解更多科研创新的方式和思维,以及如何将科研成果产业化的经验,受益匪浅。
构建百亿级别蛋白质数据库
南方财经:构建蛋白质设计大模型需要何种数据?这些数据如何获取并被开发利用?
程功:项目的数据特点体现在数据种类多、数据量大、数据获取难,精细化数据、私有化数据长期投入大。
对此,团队通过多模态、多尺度的文本、序列、结构、氨基酸/原子相互作用数据,打造高效率、高成功率、低湿实验成本的基于审计的蛋白质设计大模型。
具体数据包括:数十万条来自冷冻电镜独有数据库、200T私有数据精细化数据预训练,以及百亿级蛋白质数据库、60P公共数据预训练。
团队集成了第一性原理量子力学计算精度和国际上已经公开的高精度原子结构数据库、动力学和蛋白质互作数据库、公开发表的多肽药物结构活性关系数据集,整合开源蛋白质序列数据库,进行数据清洗以提升数据质量,并结合特定任务进行数据扩增,构建百亿级别的蛋白质数据库,为大模型的训练提供丰富数据集。
“数据要素×”的核心,是解决数据在多个主体之间的合理流转和使用,其实需要解决掉数据源头的价值型和唯一性。如果主体很容易获得这样数据,其实并不会主动构成完整的产业链合作,都会选择单干。
我们这个项目天然在数据体系上就有这些特点存在,因此产生的数据价值也相对较高。比如,更多依靠自采的特有数据和特有算法的融合,并不完全依靠公共数据的,这样数据有独特性、有较高的价值和壁垒。
南方财经:目前世界范围内有没有其它企业或科研团队掌握类似技术?与Relay Therapeutics等国内国际同行相比,你们的优势是什么?
程功:对标Relay Therapeutics以虚拟动力学模拟为主的分析技术,我们解决了实验获得靶点动态多构像的关键技术,高效的覆盖了更大更真实的时间尺度,并规避了大规模的蛮力计算,通过平衡的结合稀缺的动力学实验数据和必要而精确的计算,可大幅提高药物设计的准确性,创新性和高效性。
建议培育大数据基础设施服务商
南方财经:当前,项目研发成果在产业端主要应用哪些领域?
程功:项目采用大数据进行多模态大模型训练,能够进行蛋白质设计、生成和筛选,逐步积累和掌握蛋白为核心的制药关键大数据,并形成以数据为基础的核心竞争力。
一方面,基于数据库和大模型,公司将在多个场景下和行业公司合作研发,主要侧重于AI制药,将为抗癌、抗病毒、抗细菌等方面的新型小分子和蛋白质药物研发提供新的思路和解决方案。例如,围绕“蛋白酶+炎症小体”两类靶点,3-5年内将会形成3-8款世界级First-in-Class药物研发突破。
另一方面,项目也有利于支持多特异药物研发,该模式应用下的早期药物发现时间可以从24个月缩短至5个月。目前,我们已就该成果与多家企业开展合作。其中,埃空间就自研了多个小分子药物用于解决心梗等心血管疾病,目前已完成动物实验阶段。同时,团队还与江苏某医药民企合作开发创新药物,并与慢性病管理机构达成战略合作。
南方财经:未来随着生成式AI模型、大型语言模型的行业化应用进一步成熟,生物制药模式还将发生什么变化?
程功:生命科学领域有着明显的特点,解码的是生命语言,而非自然语言,实验验证过的、有标签的数据很贵也很少,已有的数据往往来自不同场景,难以直接用于训练任务模型。
未来AI大模型如果能和海量未标注数据,如基因组数据、蛋白质序列等深度结合,大模型基于这些数据预训练后,再结合少数标注过的生物实验室数据,学习生命系统的深层次表征,进而完成蛋白质结构预测、基因序列分类等下游任务,就可以预测某种新型蛋白质的功能,进而为设计全新的药物或者生物技术提供可能。这也是传统研究方法很难做到的创新突破。
这意味着,未来生物制药模式可能会继续发生变化。从理解生命到预测生命再到设计、创造生命,这也是大模型为生命科学带来创新价值的重要体现。这可能从根本上改变了生命科学研究路径、思维方式,推动生命科学更深入、更具前瞻性,将行业发展推进到精准医疗、个性化医疗水平。
南方财经:AI制药模式的兴起对数据要素开发提出了哪些新的要求?未来,如何更好地推动数据要素价值向生物医药行业延伸?
程功:AI制药模式与一般数据要素使用模式的区别在于,政府并不像其它公共数据资源一样,能够全面掌握制药领域的数据要素。但依靠单一研发企业,又往往面临各自为战、数据积累慢、投入大而资本市场遇冷等情况,这也导致很多创新药研发无以为继。
为此,我们建议可以探索在政府支持下推动若干企业成为行业高端CRO服务基础设施企业。这批企业以“蛋白大数据+自动化实验室”为载体,填补行业数据赋能的空白市场,减少重复的硬件投入,增强AGI在指导药物设计、合成生物发现等方面的独特能力。平台化的大模型公司不仅能支持降本增效,还会大幅度提高创新能力,或许会成为促进产业发展的关键路径。