密苏里大学许东：大模型时代，Prompt 为生物信息学研究带来新动力丨IJAIRR

更新时间：2024-08-07 10:10作者：小乐

在生物信息学领域，Prompt不再是炼金术。

作者丨陈鲁一编辑丨岑峰自2022年ChatGPT诞生以来，人工智能领域迎来了新的革命。大型语言模型（LLM）因其出色的文本处理能力而迅速成为研究人员和开发人员的新宠。随着这些模型的兴起，如何与其有效交互的问题日益凸显，提示的概念逐渐成为研究热点。但什么是提示词呢？在计算机交互的早期，提示词是用户输入的提示左侧的指令（例如MS Dos的C:或Python的），以触发系统的响应。在大型模型的上下文中，提示词是指导性陈述或问题。它就像一个魔咒，激发大型语言模型的潜力，引导它们根据我们的指令生成文本、回答问题或执行任务。在与大语言模型的交互中，提示词就像一把打开知识宝库的钥匙。它不仅是沟通的桥梁，也是探索语言模型深层潜力的工具。 ChatGPT 创始人Sam Altman 将Prompt Engineering 视为自然语言编程的黑科技，并认为这是一项可以带来高回报的技能。 ChatGPT或者其他大型语言模型能否给出满意的答案，很大程度上取决于你如何熟练地使用提示词。随着人工智能生成内容（AIGC）时代的到来，提示词的价值和重要性日益凸显。然而，Prompt技术的复杂性远远超出了我们的想象。当早期研究人员探索Prompt技术时，他们似乎在进行一场炼金术探索，充满了不确定性和偶然性。通过不断尝试不同的提示词，他们试图找到能够激发大型语言模型最佳性能的“魔咒”。这种方法虽然在某些情况下可行，但缺乏系统性和可复制性。瞬发技术要想更进一步，必须经历“从炼金术到化学”的系统发展过程。这意味着我们需要将即时技术从基于经验的技能转变为基于科学原理的工程学科。这就需要对现有的Prompt技术进行深入分析和总结，建立完整的理论体系和方法论。例如：不同的提示词如何影响大语言模型的理解和生成？在不同的应用场景下，应该按照什么原则来设计和优化提示词？最近，其中一篇相关论文《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》发表在在线期刊《International Journal of Artificial Intelligence and Robotics Research》（IJAIRR）上。本文主要研究大语言模型在生物信息学领域的应用。主要研究如何利用大型语言模型（如ChatGPT）挖掘基因关系，并提出迭代提示优化技术来提高预测基因关系的准确性。该论文为生物信息学研究人员利用ChatGPT改善工作流程和工作效率提供了新思路。密苏里大学哥伦比亚分校计算机科学系徐东教授随论文发表，向《AI Technology Review》分享了大规模人工智能模型对生命科学领域的影响，以及他对生命科学领域的思考。如何更好地将大规模语言模型应用于生物信息学研究。论文链接：https://gairdao.com/doi/10.1142/S2972335324500054 论文引用链接：https://www.worldscientific.com/action/showCitFormats doi=10.1142%2FS2972335324500054area=0000000000000001

生物信息学：

迎来第二次繁荣

回顾20世纪90年代，那是一个被形象地称为生物信息学研究“寒武纪”的时期。人类基因组计划的启动、全球蛋白质结构预测竞赛的举办、生物信息量的爆发式增长，加上信息技术的跨时代发展，共同带来了生物信息学的第一个黄金时代，使得它是前沿学科之一。如今，随着人工智能技术的突破，特别是大型人工智能模型在生物信息学中的应用，我们有望迎来生物信息学的第二次繁荣时期。徐东教授是经历过20世纪90年代生物信息学黄金时代的人之一。他指出，在生命科学领域，大规模人工智能模型的应用日益广泛，其应用主要集中在以下几个方面：蛋白质模型：通过利用蛋白质序列训练的大型模型，各种蛋白质可以执行预测任务，包括设计新蛋白质；单细胞模型：单细胞数据量巨大，通常单细胞实验涉及数千至数百万个细胞。基于单细胞转录组数据训练的大型模型，能够进行大规模单细胞数据分析；医疗多模态模型：通过整合医疗文本（如病历、医生笔记）、图像和其他检查报告等多种数据类型，训练出的大模型可用于医疗数据分析；除了上述三个主要领域外，研究人员还在核酸定位、蛋白质与DNA/RNA相互作用等其他方面开发相应的大型模型。这些应用场景可以帮助生物信息学家更快、更准确地处理生物信息学问题，从而提高研究效率、降低成本。然而，虽然人工智能大模型在生物信息学领域的应用取得了一定进展，但大模型在生物信息学领域的应用仍处于早期发展阶段，存在诸多挑战。首先遇到的问题之一是大型AI模型需要大量高质量的生物信息学数据，但这些数据的质量和完整性可能存在问题；同时，当前大型AI模型的可解释性和可解释性可能存在问题，“幻觉”的存在严重影响研究的可靠性。如何解决上述问题，让大型AI模型发挥更大的作用生物信息学研究？徐东告诉AI科技评论，Prompt技术在生物信息学领域提供了一种灵活且易于实现的方法，尤其是在数据资源有限的情况下，Prompt技术仍可能成为主流方法之一。

使用提示学习提高AI 模型的准确性

在机器学习领域，将提示从“基于经验”转变为“基于科学原理”的做法被称为“即时学习”。聊天机器人之所以严重依赖提示，是因为ChatGPT的预训练模型中有很多知识。为了更好地利用这些知识和能力，OpenAI 采用了基于人类反馈的强化学习（RLHF）方法，利用人类反馈的输入来“比较”语言，从而达到人机交互的目的。因此，聊天机器人的提示必须经过精心设计，以获得有价值、准确且稳健的响应。提示学习的核心是将用户输入的文本转换为特定的提示格式。这个过程通常包括两种模式：第一种是自编码模式，它使用文本中间带有占位符的自然语言模板，允许大模型在指定的占位符处生成答案文本。第二种是自回归模式，向大模型提供问题和背景信息，让大模型自由生成答案文本。这些方法本质上是为预训练的语言模型设计任务，包括输入模板、标签样式以及模型输出和标签之间的对应关系。本文的研究正是基于此基础上，在复杂生物信息学场景下采用自回归模式提示学习，并利用迭代提示优化、思维链等技术，通过与ChatGPT的交互逐步优化提示，以提高预测亲缘关系的准确性。

（使用GPT 模型进行遗传关系挖掘的迭代提示细化框架。该方法利用GPT-4 的高级逻辑功能自主改进提示，并利用GPT-3.5 的低成本和高速度进行基于事实的初始查询处理。）

这项工作的重点之一是元提示设计：元提示为会话机器人设定角色，提示指导GPT-4优化提示，增强答案的专业性。元提示包含特定的指令，例如改变角色、省略细节等，以提高提示的有效性。另一个关键点是引入迭代优化技术，利用GPT-4的能力进行迭代提示优化。首先使用GPT-3.5生成基因关系提示，然后评估这些提示的性能（例如F-1分数、精度和召回率）；将预测结果与实际数据（例如KEGG数据库）进行比较，找出错误和不足，然后利用此反馈信息进行进一步的优化提示；最后，将优化后的模型应用于KEGG Pathway Database进行基准测试，验证其在解析复杂基因关系和疾病相关pathway方面的有效性。此外，论文还引入Chain-of-Thought和Tree-of-Thought策略来指导ChatGPT进行更深入的逻辑推理，提高答案的准确性和深度；同时，它将复杂的问题分解为更易于管理的子问题序列，逐渐引导ChatGPT构建更完整的答案。该方法特别适合复杂基因关系网络的构建。实验结果表明，通过迭代提示优化技术，ChatGPT预测基因关系的准确性显着提高。特别是在复杂基因关系和疾病相关通路的分析中，其潜力和有效性已得到证明。

生物信息学研究新动力

“即时技术在生物信息学领域具有显着优势。”徐东告诉AI技术评论，首先，Prompt技术对数据要求较低，不需要大量数据进行训练，因此在小数据集上表现良好。这对于生物信息学领域尤其重要，因为许多生物医学数据集的大小有限；其次，由于Prompt技术是在大型预训练模型的基础上运行的，因此易于实现和应用；最后，生物信息学的很多问题本质上都是小数据问题，因此Prompt技术具有广泛的应用前景和场景。在解释迭代提示优化技术如何有效解决大型语言模型中的“幻觉”问题时，徐东认为，不仅是大型语言模型，人类本身在某些情况下也可能会经历类似的“幻觉”现象。例如，人们可能会错误地回忆起某些事件的细节，这并不是故意误导，而是因为记忆偏差。大语言模型“错觉”的原因大致可以分为三类：1）对用户问题的误解； 2）训练数据混乱导致生成答案时混乱； 3）缺乏反思能力，未能有效识别和纠正自己的错误。迭代提示优化技术就是针对这三类原因。通过迭代优化，模型能够更准确地理解用户的问题和提示，减少误解；同时增强知识泛化能力，帮助模型更好地总结和区分训练数据。模型中的知识以避免信息混乱；最后，迭代优化使模型具有更强的类似于人类思维过程的自我反思能力，并且可以识别和改进生成的答案。与传统方法相比，迭代提示优化技术通过模拟人类的学习和思维过程，使模型在处理复杂问题时更加高效、协调。这种方法比传统的基于规则的系统更加灵活和适应性更强，能够处理更广泛的任务和数据类型。因此，通过该方法，大型语言模型生成答案的准确性和可靠性显着提高，减少了“幻觉”现象的发生，从而在生物信息学等领域展现出更大的应用潜力。徐东还表示，Prompt技术虽然有着广阔的应用前景，但也存在一定的局限性，比如高度依赖训练数据的质量和代表性、泛化能力有限等。同时，徐东也在《Prompt技术》中表示。论文提到，模型的性能波动和对训练数据的敏感性表明需要进一步优化和迭代策略。未来的工作可能包括模型定制、开发更先进的迭代提示算法以及评估该方法在更广泛的研究问题上的有效性。 “虽然不是所有问题都适合这种方法，但相当一部分问题可能通过大模型和提示技术可以更准确地解决。”当谈及Prompt科技未来在生物信息学领域的潜力时，徐东充满信心。 “大模型在很多领域仍然有很大的优化空间，比如目前缺乏专门的生物信息学大模型。随着大模型的发展，Prompt技术将在这些模型中发挥更大的作用。”

未经《AI技术评论》授权，严禁以任何方式在网页、论坛、社区转载！公众号转载请在《AI技术评论》后台留言获取授权。转载时须注明出处并插入本公众号名片。