ChatGPT爆火，是AI的“狂飙”吗？世界热点

来源：北京日报发布时间：2023-02-22 08:17:47

说到最近网上最火的科技名词，非“ChatGPT”莫属。ChatGPT（Chat Generative Pre-trained Transformer）是美国一家人工智能研究公司研发的聊天机器人程序，不仅能与人有问有答，文章也写得有模有样，因此有些人称之为史上最强AI（人工智能），甚至还有人联想到科幻片中人工智能最终取代人类的情节。记得上一轮掀起舆论热潮的人工智能事件，还是2016年AlphaGo以4∶1战胜世界顶级围棋棋手李世石。今天我们就来说说以ChatGPT为代表的人工智能对当前社会发展的影响，以及其现有成果在生物科学领域的作用。

接受强化训练的生成式AI：

对接用户需求创造新内容

(资料图片)

现在全世界都在谈论的ChatGPT是一个人工智能撰稿和聊天工具，去年11月一经推出，便在社交媒体上迅速走红，至今月活跃用户已过亿。ChatGPT能够通过学习和理解人类的语言来进行对话、回答各种问题，还能根据要求完成视频脚本、文案、论文、代码等写作任务。它的成功，源于以深度学习为代表的人工智能技术的长期积累。从属性上看，ChatGPT其实是一个大型语言模型（LLM），接受过大量文本数据的训练，能够对各种各样的问题输入生成类似人类的应答结果和反应，因此，也可以称它为容生成器。

AI需要具备3个要素：数据、算力及算法。数据是知识原料，算力及算法则提供“计算智能”以学习知识并实现特定目标。人们对AI有多种分类，以AI“能做什么工作”和“完成什么任务”作为标准，可以简单将其分为反应式AI（分析型AI）和生成式AI。

反应式AI根据预编程规则对不同类型的刺激做出反应，由于不使用内存，所以无法通过新数据进行学习。1997年击败国际象棋冠军加里·卡斯帕罗夫的IBM深蓝超级计算机就是反应式AI。

而生成式AI获得了大量数据、信息，并且经过强化训练和深度学习，以及类似于神经网络的反馈纠错机制，所以能完成很多工作，产生很多产品。用一句话概括其本质：根据用户的具体需求创造新内容。

从ChatGPT的全称“Chat Generative Pre-trained Transformer（生成式预训练转换器）”就能看出，它是一款可以自行生成许多内容的AI，包括各类文本、文章、与人对话、翻译、编写代码、绘画、制作视频等。

由于受各种因素的制约，ChatGPT生成的内容也有不少错误，尤其是关于社会、文化、人文、哲学、政治、经济和历史方面的内容。但是在自然科学领域，由于有公认的定律和共同的认知，如“原子是由带正电的原子核和核外带负电的电子构成的”，ChatGPT生成的内容出错率相对较少。

正因如此，虽然生成式AI在所有领域都有用武之地，但类似ChatGPT的生成式AI在自然科学领域的应用更受青睐。生物医学研究、医疗和生命科学都需要生成式AI，ChatGPT只是其中一种。

准确预测蛋白质结构：

可加快新药和疫苗研发

目前，生成式AI在生物医学领域的用途方兴未艾。生成式AI不仅能分析成千上万种蛋白质，还可以生成新的蛋白质，甚至是自然界从未出现过的蛋白质。

过去，认识和精确测定蛋白质的构型需要耗费大量的时间和精力，还未必能测得准，给药物、疫苗研发和疾病治疗造成了阻碍。如果生成式AI的结果既准确又快速，就可以知道一些病毒变异后的蛋白质结构，如新冠病毒的S蛋白变异，从而加快研发新药和疫苗的速度。

2020年，英国深度思考公司研发的阿尔法折叠2（Alpha Fold-2）有了惊人成就。这款生成式AI在2020年举行的第14届“蛋白质结构预测关键评估”大赛中大放异彩。它测定的大部分蛋白质结构非常准确，不仅与实验方法测得的蛋白质结构的精确度相同，还远超解析新蛋白质结构的其他方法。具体来说，阿尔法折叠2能在几分钟内预测出一个典型蛋白质的结构，并能够在几天内生成高精度的结构。2022年初，阿尔法折叠2又测出了2.2亿个蛋白质的结构，几乎涵盖了DNA数据库中已知生物的所有蛋白质。

2022年11月，Meta公司（前身为Facebook）奋起直追，其名为ESMFold的生成式AI软件预测了约6亿个蛋白质的结构，这些蛋白质来自细菌、病毒和其他尚未命名的微生物。虽然该软件的准确性不如阿尔法折叠2，但在预测结构方面速度要快约60倍。

ESMFold的原理与ChatGPT基本相似，也是一种大型语言模型，只不过，训练它的内容不是自然语言，而是生物基因语言，也就是通过碱基排列的顺序和规律来检测蛋白质。

举例来说，对于ESMFold的训练，是把已知蛋白质的氨基酸序列“投喂”给它们，正如训练ChatGPT要把自然语言的词语根据语法进行“投喂”一样。自然界的蛋白质可以用20个不同的氨基酸链表示，每个氨基酸链由一个字母表示，这种训练使ESMFold对蛋白质序列有直观理解，并能理解蛋白质序列包含的蛋白质形状信息。在这样的深度学习之后，ESMFold学会了在氨基酸比例模糊的情况下“自动补全”信息。

研究团队把ESMFold应用于大规模测序的“宏基因组”DNA数据库，这些DNA来自于环境，包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。ESMFold通过算法，能结合蛋白质结构和序列之间关系的信息生成预测结构。它总共预测了超过6.17亿个蛋白质的结构，只花了两周时间。而且，在6.17亿个蛋白质测试中，超过1/3的预测是高质量的，有数以百万计的蛋白质结构是全新的。

自然界酶类从无到有：

人工酶氨基酸序列变化也无损活性

生成式AI的强大还体现在可以生成自然界中没有的蛋白质和物质，为人类的衣食住行生产、提供新原料和产品。

美国一家人工智能研究企业研发了另一种生成式AI，称为人工酶人工智能系统ProGen。这是一种专门检测酶（由活体细胞产生的一种特殊蛋白质，人体内几乎所有生化反应都必须有酶参与才能完成）和生成酶的AI软件。在实验室测试中，ProGen设计的一些人工酶与自然界中发现的酶一样有效，即使其氨基酸序列与任何已知的天然蛋白质存在显著差异，也仍然有生物活性。

特定的蛋白质各有其单独的氨基酸排列顺序。研究人员把1.9万个酶家族的2.8亿种不同蛋白质的氨基酸序列输入ProGen机器学习模型中，同时提供相关蛋白质特性作为控制标签，然后让系统花费数周时间来“消化”这些信息。此后，研究人员再把信息收窄，使用来自5个溶菌酶家族的5.6万种蛋白质氨基酸序列，以及有关这些蛋白质的一些信息来对模型进行微调。

根据学习的内容，ProGen迅速生成了100万个蛋白质序列，研究团队在其中选择了100个进行测试后发现：来自5个溶菌酶家族的所有人工蛋白质均显示出活性，且73%具有抗菌功能，而在天然蛋白质中仅59%具有抗菌功能。

更令人惊讶的是，在另一轮筛选中研究团队发现，即使只有31.4%的序列与目前已知的天然蛋白质相似，生成式AI设计的酶类依然显示出了生物活性。与之相反的是，天然蛋白质如果发生任何一个突变，都有可能失去生物活性。

这些研究结果总结起来，彰显了三方面的意义：一是ProGen生成的人工蛋白质不仅可以正确表达，还展示出与蛋白质天然折叠相类似的结构；二是AI生成的蛋白质即便只有部分氨基酸序列与天然蛋白质的序列相似，也具有生物活性，但天然蛋白没有这个优势；三是人工智能可以设计出在自然界从未有过的新物质和新产品。

这意味着，如果采用生成式AI设计和生产蛋白药物、食品及生物产品（如降解塑料的产品），会更快更有效，当然其安全性还需通过进一步的研究来检验。换句话说，如果人工智能生成的蛋白质能够像自然生成的蛋白质一样，也意味着未来人工智能可以设计人类所需要的各类产品，首要的就是满足人类生存的食物和药品。

帮助诊断疾病和优生：

最终结果仍需人类审核决定

现在，生成式AI已经发展到通过图像、血液、组织扫描结果，来检测、诊断和预测心血管病、眼部疾病、糖尿病，以及结直肠癌、肺癌、乳腺癌、前列腺癌等多种癌症。

还有一个受到医学关注的领域是不孕不育。现代生活方式和环境变化造成约有15%的夫妇不育，其中精子质量差是重要的原因之一。传统的做法是对精子活检来检测质量，但这个任务如果由AI来完成会更出色。

总之，无论AI应用到了什么领域，最终所获得的成果或生成的产品仍需由人来审核和决定，这才是对待AI的科学态度。

实习编辑：赵司尧

关键词：人工智能氨基酸序列天然蛋白质

分享到：QQ空间新浪微博腾讯微博人人网微信