撰文:Arthur Spirling 纽约大学政治学和数据科学教授
来源:Nature
图片来源:由无界 AI工具生成
研究人员应该避开专有模型的诱惑,开发透明的大型语言模型,以确保再现性。
似乎每天都有一个新的大型语言模型(LLM)发布,其创造者和学术界都对其响应人类提示的非凡能力感到震惊。它可以修复代码!它可以写推荐信!它能对一篇文章进行总结!
作为一名正在使用和讲授此类模型的政治和数据科学家,从我的角度来看,学者们应该保持警惕。最受追捧的 LLMs 是专有的、封闭的:由公司运营,这些公司不披露其基础模型以供独立检查或验证,因此研究人员和公众不知道该模型是在哪些文件上进行训练的。
急于将这种人工智能(AI)模型用于研究是一个问题。它们的使用威胁着在研究伦理和结果再现性方面来之不易的进展。
相反,研究人员需要合作,开发透明的、不依赖公司偏好的开源 LLM。
诚然,专有模型很方便,可以开箱即用。但是,投资开源 LLMs 势在必行,既要帮助建立开源模型,又要将它们用于研究。我乐观地认为,它们将被广泛采用,就像开源统计软件一样。专有的统计程序最初很受欢迎,但现在我的方法论社区大多使用 R 或 Python 等开源平台。
BLOOM,一个开源的 LLM,于去年 7 月发布。BLOOM 由位于纽约的人工智能公司 Hugging Face 和 1000 多名志愿研究人员建立,部分资金来自法国政府。此外,其他建立开源 LLM 的努力也在进行中。这类项目很棒,但我认为我们需要更多的合作,并汇集国际资源和专业知识。开源 LLMs 通常不像大公司的努力那样有充足的资金。而且,它们需要奔跑着才能站稳脚跟:这个领域的发展如此之快,以至于 LLMs 的版本在几周或几个月内就会变得过时。参与这些努力的学者越多越好。
使用开源的 LLMs 对再现性至关重要。封闭式 LLM 的所有者可以在任何时候改变他们的产品或其训练数据 — 从而改变其输出。
例如,一个研究小组可能会发表一篇论文,测试一个专有的 LLM 所建议的短语是否能帮助临床医生更有效地与病人沟通。如果另一个小组试图复制这项研究,谁知道模型的基础训练数据是否相同,甚至该技术是否还能得到支持?OpenAI 去年 11 月发布的 GPT-3 已经被 GPT-4 所取代,据推测,支持旧的 LLM 很快将不再是该公司的主要优先事项。
相比之下,有了开源的 LLM,研究人员可以查看模型的核心,了解它是如何工作的,定制其代码并标记错误。这些细节包括模型的可调整参数和它所训练的数据。社区的参与和监督有助于使这些模型长期保持稳定。
在科学研究中使用专有的 LLMs 对研究伦理也有令人不安的影响。用于训练这些模型的文本是未知的:它们可能包括用户在社交媒体平台上的直接信息,或由法律上不同意分享其数据的儿童所写的内容。虽然制作公开文本的人可能已经同意了平台的服务条款,但这也许不是研究人员希望看到的知情同意的标准。
在我看来,科学家应该尽可能在自己的工作中不再使用这些模型。我们应该转而使用开放的 LLM,并帮助其传播。此外,我认为学者们,尤其是那些拥有大量社交媒体粉丝的学者,不应该强迫他人使用专有模型。如果价格飙升,或者公司倒闭,研究人员可能会后悔推广了让同事陷入昂贵合同的技术。
研究人员目前可以求助于私人组织制作的开源 LLM,比如由 Facebook 母公司 Meta 开发的 LLaMA。LLaMA 最初是以个案形式向研究人员发布的,但完整的模型随后被泄露到了网上。例如,我和我的同事们正在使用 Meta 公司的开源 LLM OPT-175 B。LLaMA 和 OPT-175 B 都是免费使用的。从长远来看,不利的一面是,这使得科学依赖于企业的仁慈——这是一种不稳定的局面。
我们应该设立与 LLM 合作的学术行为准则,以及监管。但这些都需要时间,而且根据我作为一个政治科学家的经验,我预计这种规定最初会很笨拙,而且生效缓慢。
与此同时,大规模的合作项目迫切需要支持,以建立用于研究的开源模型 — 例如欧洲核子研究中心(CERN),国际粒子物理学组织。政府应通过赠款增加资金。该领域正在以闪电般的速度发展,现在需要开始协调国家和国际的努力。科学界最适合评估所得模型的风险,并且在向公众发布这些模型时可能需要谨慎对待。但很明显,开放的环境才是正确的。