(资料图片)
北京日报客户端 | 记者 孙奇茹
7月22日,总部位于北京的AI制药企业华深智药对外宣布,在AI和生命科学结合领域实现一项重要突破:在蛋白质结构预测方面开发出全新技术OmegaFold。据华深智药官方介绍,OmegaFold是全球范围内首个解决了已有计算机预测三维结构的模式,仅从单条蛋白序列就能预测出蛋白质3D结构的算法,这在计算生物史实现了里程碑式进展。该成果有望给整个大分子制药领域带来前所未有的变革。
几十年来,人们一直在尝试着在计算机内模拟和预测蛋白质三维结构折叠,相应的算法也层出不穷。在OmegaFold之前,由谷歌旗下人工智能公司DeepMind发布的最佳方法是AlphaFold2和RoseTTAFold这两大AI算法,它们主要是从一个蛋白质的进化历史中提取氨基酸的共进化信息,并根据这种共进化信息预测蛋白质的三维结构。也就是说,如果要预测人体中的某个蛋白质的三维结构,需要提前在数据库中搜索与该蛋白质在进化当中拥有共同祖先(同源)的其他物种中的类似的蛋白质的序列。
但是,很多蛋白质缺乏这种同源信息,例如,近年来出现了大量人工设计的蛋白质药物和工业合成用酶,都是在生物进化历史中从未出现过的。华深智药创始人彭健博士在社交平台上分享了团队的突破性进展:“蛋白质在体内进行折叠并不需要同源序列的存在,也不需要知道任何进化信息,我们的团队一直坚信蛋白质的三维结构可以仅仅从它的序列信息当中预测,本着科学研究的第一性原理,终于开发出了仅从单条蛋白序列就能预测出3D结构的算法OmegaFold。”
研发人员介绍,OmegaFold的出现让人类从此不依赖一个蛋白质必须在进化当中留有印记,就可以获知他的三维结构信息并进一步推断其生物功能。这将大大拓宽人类设计蛋白质的搜索空间和效率。在最近的全球持续蛋白质结构预测竞赛CAMEO和全球蛋白质结构预测竞赛CASP13/14的数据集上,OmegaFold从单条序列预测的结构分值远远超过了AlphaFold2以及RoseTTAFold,并且整体达到了或超越了AlphaFold2和RoseTTAFold的MSA版本的预测精度。
研究团队还将视角聚焦到了两类众所周知的缺乏蛋白质同源进化信息的蛋白质,一类是抗体蛋白质,另一类是所谓的孤儿蛋白质(通常被认为是一个狭窄的分类单元或物种所特有的)。其中抗体是人体免疫系统在抗原刺激下应激产生的,原理上就不会留有进化信息,一直是传统蛋白质三维结构预测软件的盲区。据其公布的信息,OmegaFold软件在这两类蛋白质上,尤其是抗体的关键功能区的结构预测上取得了突破性进展,有望给整个大分子制药领域带来前所未有的变革和机会。
据悉,和传统的方法比较,OmegaFold利用了更少的信息,但是在多项指标上却可以赶超AlphaFold2和RoseTTAFold,这主要归功于OmegaFold在概念上的突破以及蛋白质序列大模型以及几何深度学习模型的创新应用。研究团队同时发现,仅仅通过氨基酸序列来预测三维结构,还能够提高训练和预测的计算速度,使得蛋白质结构可以在数秒内被预测完毕。
作为AI+新药开发领域的重要参与者,华深智药是由清华大学人工智能产业研究院孵化,使用AI重构药物开发流程来提高新药研发速度和效率的企业。近期,华深智药获得了近5亿元A轮融资,由五源资本领投,高榕资本、Neumann Capital以及三家天使轮投资方襄禾资本、高瓴创投、清智资本跟投。