撰文:Benj Edwards
来源:Ars Technica
编译:8btc
图片来源:由无界 AI工具生成
在过去的几个月里,像 ChatGPT 这样的人工智能聊天机器人已经吸引了全世界的注意力,因为它们能够以类似人类的方式就几乎任何话题进行交谈。但它们也有一个严重的缺点:它们可以轻易地提出令人信服的虚假信息,使它们成为不可靠的事实信息来源和潜在的诽谤来源。
为什么 AI 聊天机器人会胡编乱造,我们是否能够完全信任它们的输出?我们询问了几位专家,并深入研究了这些人工智能模型的工作原理,以找到答案。
“幻觉”:人工智能中的一个重要术语
人工智能聊天机器人,如 OpenAI 的 ChatGPT,依赖于一种称为“大型语言模型”(LLM)的人工智能来生成它们的响应。LLM 是一种计算机程序,经过数百万文本源的训练,可以阅读并生成“自然语言”文本语言,就像人类自然地写作或交谈一样。不幸的是,它们也会犯错。
在学术文献中,人工智能研究人员经常将这些错误称为“幻觉”(hallucinations)。但是,随着这个话题成为主流,这个标签的争议也越来越大,因为有些人认为它把人工智能模型拟人化了(暗示它们有类似人类的特征),或者在不应该暗示这一点的情况下赋予它们代理(暗示它们可以做出自己的选择)。商业 LLM 的创造者也可能利用幻觉作为借口,将错误的输出归咎于 AI 模型,而不是为输出本身负责。
不过,生成式 AI 太新了,我们需要从现有的想法中借用隐喻来向更广泛的公众解释这些高度技术性的概念。在这种情况下,我们觉得术语“虚构”(confabulation)虽然同样不完美,但比“幻觉”更好。在人类心理学中,当某人的记忆有一个缺口,而大脑在无意欺骗他人的情况下令人信服地填补其余部分时,就会出现“虚构”。ChatGPT 的工作方式与人脑不同,但“虚构”一词可以说是一个更好的比喻,因为有一个创造性的填补空白的原则在起作用,我们将在下文进行探讨。
“虚构”的问题
当人工智能机器人产生可能误导、误传或诽谤的虚假信息时,这是一个大问题。最近,《华盛顿邮报》报道了一位法律教授,他发现 ChatGPT 将他列入了一份对某人进行过性骚扰的法律学者名单。但这件事从未发生过 — 是 ChatGPT 编造的。同一天,Ars 报道了一位澳大利亚市长,据称他发现 ChatGPT 声称他被判定犯有贿赂罪并被判处监禁,这也完全是捏造的。
ChatGPT 推出后不久,人们就开始宣称搜索引擎的终结。然而,与此同时,ChatGPT 的许多虚构的例子开始在社交媒体上流传。人工智能机器人发明了不存在的书籍和研究,教授没有写过的出版物,虚假的学术论文,虚假的法律引用,不存在的 Linux 系统功能,不真实的零售吉祥物,以及没有意义的技术细节。
然而,尽管 ChatGPT 倾向于随意撒些小谎,但与直觉相反的是,它对虚构的抵抗才是我们今天谈论它的原因。一些专家指出,ChatGPT 在技术上比 vanilla GPT-3(其前身模型)有所改进,因为它可以拒绝回答一些问题或让你知道它的答案可能不准确。
大型语言模型专家、Scale AI 的提示工程师 Riley Goodside 说:“ChatGPT 成功的一个主要因素是,它成功地抑制了虚构,使许多常见问题都不引人注意。”“与它的前辈相比,ChatGPT 明显不太容易编造东西。”
如果用作头脑风暴工具,ChatGPT 的逻辑跳跃和虚构可能会导致创造性突破。但当用作事实参考时,ChatGPT 可能会造成真正的伤害,OpenAI 也知道这一点。
在该模型推出后不久,OpenAI 首席执行官 Sam Altman 在推特上说:“ChatGPT 有很大的局限性,但在某些方面足够好,足以造成一种伟大的误导性印象。现在依靠它来做任何重要的事情都是错误的。这是进步的预览;我们在稳健性和真实性方面还有很多工作要做。”在后来的一条推文中,他写道:“它确实知道很多东西,但危险的是,它在相当大的一部分时间里是自信而错误的。”
这是怎么回事呢?
ChatGPT 如何运作
为了理解像 ChatGPT 或 Bing Chat 这样的 GPT 模型是如何虚构信息的,我们必须知道 GPT 模型是如何运作的。虽然 OpenAI 还没有发布 ChatGPT、Bing Chat 甚至 GPT-4 的技术细节,但我们确实可以看到 2020 年介绍其前身 GPT-3 的研究论文。
研究人员通过使用一个被称为“无监督学习”的过程来建立(训练)像 GPT-3 和 GPT-4 这样的大型语言模型,这意味着他们用来训练模型的数据没有被特别注释或标记。在这个过程中,模型被输入大量的文本(数以百万计的书籍、网站、文章、诗歌、成绩单和其他来源),并反复尝试预测每个单词序列中的下一个单词。如果模型的预测接近实际的下一个词,神经网络就会更新其参数以加强导致该预测的模式。
相反,如果预测不正确,该模型就会调整其参数以提高其性能并再次尝试。这种试错的过程,通过一种叫做“反向传播”的技术,使模型能够从错误中学习,并在训练过程中逐渐改善其预测结果。
因此,GPT 学会了数据集中的单词和相关概念之间的统计关联。有些人,如 OpenAI 首席科学家 Ilya Sutskever,认为 GPT 模型甚至比这更进一步,建立了一种内部现实模型,因此可以更准确地预测下一个最佳标记,但这个想法是有争议的。GPT 模型如何在其神经网络内得出下一个 token 的确切细节仍不确定。
在当前的 GPT 模型浪潮中,这种核心训练(现在通常称为“预训练”)只发生一次。之后,人们可以在”推理模式“中使用训练好的神经网络,这让用户可以将输入信息输入到训练好的网络中并得到一个结果。在推理过程中,GPT 模型的输入序列总是由人类提供,它被称为“提示”(prompt)。提示决定了模型的输出,即使稍微改变一下提示,也会极大改变模型产生的结果。
例如,如果您提示 GPT-3“Mary had a”,它通常会用“little lamb.”来完成句子。这是因为在 GPT-3 的训练数据集中可能有数以千计的“Mary had a little lamb”的例子。但是,如果你在提示中添加更多的上下文,例如“In the hospital, Mary had a,”,结果就会改变,并返回“婴儿”或“一系列检测”等词。
这就是 ChatGPT 的有趣之处,因为它被设定为与代理对话,而不仅仅是一个直接的文本完成工作。在 ChatGPT 的情况下,输入提示是你与 ChatGPT 的整个对话,从你的第一个问题或声明开始,包括在模拟对话开始前提供给 ChatGPT 的任何具体指示。在这一过程中,ChatGPT 对它和你所写的一切都保持一个运行中的短期记忆(称为“上下文窗口”),当它与你“交谈”时,它试图将对话的记录作为一个文本完成任务来完成。
此外,ChatGPT 与普通的 GPT-3 不同,因为它还接受了人类编写的对话记录的训练。OpenAI 在其最初的 ChatGPT 发布页面中写道:“我们使用有监督的微调训练了一个初始模型:人类 AI 训练员提供了他们扮演双方角色的对话——用户和 AI 助手。”“我们让培训师可以访问模型编写的建议,以帮助它们撰写回复。”
ChatGPT 还使用一种称为“从人类反馈中强化学习”或 RLHF 的技术,对 ChatGPT 进行了比 GPT-3 更严格的调整,在这种技术中,人类评分者根据偏好对 ChatGPT 的回答进行排序,然后将这些信息反馈到模型中。通过 RLHF, OpenAI 能够在模型中灌输避免回答许多它不能可靠回答的问题的目标。这使得 ChatGPT 能够以比基本模型以更少的虚构产生连贯的反应。但是不准确的地方仍然存在。
为什么 ChatGPT 会进行虚构
本质上,GPT 模型的原始数据集中没有任何东西能将事实与虚构分开。这种指导来自于:a)数据集中准确内容的普遍性;b)人类对结果中事实信息的识别;或者 c)来自人类的强化学习指导,强调某些事实的反应。
LLMs 的行为仍然是一个活跃的研究领域。甚至创建这些 GPT 模型的研究人员仍在发现该技术令人惊讶的特性,这些特性在最初开发时无人预测到。GPT 能够做许多我们现在看到的有趣事情,如语言翻译、编程和下棋,一度让研究人员感到惊讶(要了解早期的情况,请查看 2019 年的 GPT-2 研究论文并搜索“surprising”一词)。
因此,当我们问及 ChatGPT 为什么会进行虚构时,很难找出一个准确的技术答案。而且,由于神经网络权重存在一个“黑匣子”的因素,所以在一个复杂的提示下,很难(如果不是不可能)预测它们的确切输出。尽管如此,我们还是知道一些虚构发生的基本原因。
理解 ChatGPT 的虚构能力的关键是理解它作为预测机器的角色。当 ChatGPT 虚构时,它正在寻找数据集中不存在的信息或分析,并用听起来合理的词来填补空白。ChatGPT 特别擅长编造东西,因为它必须处理的数据量非常大,而且它收集单词上下文的能力非常好,这有助于它将错误信息无缝地放置到周围的文本中。
“我认为思考虚构的最好方法是思考大型语言模型的本质:它们唯一知道怎么做的事情是根据统计概率,根据训练集选择下一个最好的单词,”软件开发人员 Simon Willison 说,他经常就这个主题撰写文章。
在 2021 年的一篇论文中,来自牛津大学和 OpenAI 的三位研究人员确定了像 ChatGPT 这样的 LLM 可能产生的两大类虚假信息。第一种来自于其训练数据集中不准确的源材料,如常见的错误概念(例如,“吃火鸡会让人昏昏欲睡”)。第二种情况来自于对其训练材料(数据集)中不存在的特定情况的推断;这属于前述的“幻觉”标签。
GPT 模型是否进行胡乱猜测是基于人工智能研究人员称之为“温度”的属性,它通常被描述为“创造力”设置。如果创造力设置得高,模型就会胡乱猜测;如果设置得低,它就会根据其数据集确定性地吐出数据。
最近,在 Bing Chat 工作的微软员工 Mikhail Parakhin 在推特上谈到了 Bing Chat 的幻觉倾向以及造成这种情况的原因。”这就是我之前试图解释的:幻觉 = 创造力,“他写道。”它试图利用它所掌握的所有数据产生字符串的最高概率的延续。很多时候它是正确的。有时人们从未产生过这样的延续。“
Parakhin 说,那些疯狂的创造性跳跃是使 LLM 有趣的原因。”你可以钳制幻觉,但这超级无聊,“他写道。”[它] 总是回答‘我不知道’,或者只读搜索结果中存在的内容(有时也不正确)。现在缺少的是语调:在这些情况下,它不应该听起来如此自信“。
当涉及到微调像 ChatGPT 这样的语言模型时,平衡创造性和准确性是一个挑战。一方面,提出创造性回应的能力使 ChatGPT 成为产生新想法或解开作者瓶颈的强大工具。这也使模型听起来更人性化。另一方面,当涉及到产生可靠的信息和避免虚构时,源材料的准确性至关重要。在这两者之间找到适当的平衡是语言模型发展的一个持续的挑战,但这是产生一个既有用又值得信赖的工具所必须的。
此外还有压缩问题。在训练过程中,GPT-3 考虑了 PB 级的信息,但得到的神经网络的大小只是它的一小部分。在一篇被广泛阅读的《纽约客》文章中,作者 Ted Chiang 称这是一张“模糊的网络 JPEG”。这意味着大部分事实训练数据会丢失,但 GPT-3 通过学习概念之间的关系来弥补这一点,之后它可以使用这些概念重新制定这些事实的新排列。就像一个记忆力有缺陷的人凭着对某件事情的直觉工作一样,它有时会把事情弄错。当然,如果它不知道答案,它也会给出它最好的猜测。
我们不能忘记提示在虚构中的作用。在某些方面,ChatGPT 是一面镜子:你给它什么,它就回给你什么。如果你给它提供虚假的信息,它就会倾向于同意你的观点,并沿着这些思路”思考“。这就是为什么在改变主题或遇到不需要的反应时,用新的提示开始是很重要的原因。ChatGPT 是概率性的,这意味着它在本质上是部分随机的。即使是相同的提示,它的输出也会在不同的时段发生变化。
所有这些都导致了一个结论,一个 OpenAI 也同意的结论:目前设计的 ChatGPT 并不是一个可靠的事实信息来源,因此不能信任它。”ChatGPT 对某些事情来说是很好的,比如疏通作家的障碍或想出创造性的想法,“人工智能公司 Hugging Face 的研究员和首席道德科学家 Dr. Margaret Mitchell 说。“它不是为事实而建的,因此也不会是事实。就是这么简单。”
虚构能被解决吗?
盲目相信 AI 聊天机器人的世代是一个错误,但随着底层技术的改进,这种情况可能会改变。自 11 月发布以来,ChatGPT 已经升级了几次,一些升级包括准确性的提高以及拒绝回答它不知道答案的问题的能力。
那么,OpenAI 计划如何使 ChatGPT 更加准确?在过去几个月里,我们就这个问题多次联系 OpenAI,但没有得到任何回应。但我们可以从 OpenAI 发布的文件和关于该公司试图引导 ChatGPT 与人类工作者接轨的新闻报道中拉出线索。
如前所述,ChatGPT 如此成功的原因之一是使用 RLHF 的广泛培训。正如 OpenAI 所解释的那样," 为了使我们的模型更安全、更有帮助、更一致,我们使用了一种现有的技术,称为从人类反馈中强化学习(RLHF)。在我们的客户向 API 提交的提示中,我们的标签人员提供了所需模型行为的演示,并对我们模型的几个输出进行排名。然后我们使用这些数据对 GPT-3 进行微调。“
OpenAI 的 Sutskever 认为,通过 RLHF 进行额外的训练可以解决幻觉问题。Sutskever 在本月早些时候接受《福布斯》采访时说:“我非常希望,通过简单地改进人类反馈步骤中的后续强化学习,我们可以教会它不要产生幻觉。”
他继续说道:
我们现在做事的方式是雇人来教我们的神经网络如何行动,教 ChatGPT 如何行动。你只要和它互动,它就会根据你的反应,推断出,哦,这不是你想要的。你对它的输出不满意。因此,输出不是很好,下次应该做一些不同的事情。我认为这种方法很有可能完全解决幻觉问题。
就这一问题也有其他不同声音。Meta 公司的首席人工智能科学家 Yann LeCun 认为,幻觉问题不会被使用 GPT 架构的当前一代 LLM 所解决。但有一种迅速出现的方法,可能会给使用当前架构的 LLM 带来很大的准确性。
Goodside 说:“在提高 LLM 的事实性方面,研究得最积极的方法之一是检索增强 — 向模型提供外部文件作为来源和支持性背景”。他解释说,通过这种技术,研究人员希望教会模型使用像谷歌这样的外部搜索引擎,“像人类研究人员那样在它们的答案中引用可靠的来源,并减少对模型训练期间学到的不可靠的事实性知识的依赖。”
Bing Chat 和 Google Bard 已经通过引入网络搜索做到了这一点,很快,支持浏览器的 ChatGPT 版本也将如此。此外,ChatGPT 插件旨在用它从外部来源(如网络和专门的数据库)检索的信息来补充 GPT-4 的训练数据。这种增强类似于有百科全书的人会比没有百科全书的人更准确地描述事实。
此外,也许可以训练像 GPT-4 这样的模型,让它意识到自己何时在编造事情并进行相应的调整。Mitchell 说:“人们可以做一些更深入的事情,让 ChatGPT 和类似的东西从一开始就更加真实,包括更复杂的数据管理,以及使用一种类似于 PageRank 的方法,将训练数据与‘信任’分数联系起来……当它对回应不那么有信心时,还可以对模型进行微调以对冲风险。”
因此,虽然 ChatGPT 目前因虚构问题陷入困境,但未来可能还有出路,为了一个开始依赖这些工具作为基本助手(无论好坏)的世界,事实可靠性的改善不会很快到来。