ACM
BLOG@CACM

《ChatGPT的黑暗之心


原载于我们可以信任的人工智能之路

摘自ChatGPT,作者Roman Semenov, 2023年2月

事后看来,ChatGPT可能会被视为人工智能历史上最伟大的宣传噱头,一个令人陶醉的未来可能需要数年才能实现——有点像2012年的无人驾驶汽车演示,但这一次,它预示了一个需要数年才能完善的道德护栏。

ChatGPT交付了什么,毫无疑问,它的前辈喜欢微软泰(2016年3月23日上映,3月24日因有毒行为被撤销)和梅塔的《卡拉狄加》(2022年11月16日上映,11月18日被撤销)不能,这是一种幻觉——一种有毒喷吐问题终于得到控制的感觉。ChatGPT很少说任何公开的种族主义言论。简单的反犹太主义要求和赤裸裸的谎言往往遭到拒绝。

事实上,有时它看起来如此政治正确,以至于右翼变得愤怒。埃隆·马斯克(Elon Musk)对该系统已成为唤醒代理人表示担忧:

实际情况要复杂得多。

事实上,要记住的事情(正如我多次强调的那样)是聊天完全不知道在说什么。认为ChatGPT有任何道德观是纯粹的拟人化。

从技术角度来看,ChatGPT之所以比几周前发布的Galactica好得多,是因为它的护栏。卡拉狄加会不顾后果地乱吐垃圾,而且用户几乎不做任何努力(比如所谓的反犹太主义的好处),而ChatGPT有护栏,这些护栏,大多数时候,防止ChatGPT像卡拉狄加那样爆发。

不过,也不要太过安逸。我是来告诉你那些护栏不过是一只没有道德的猪身上的口红。

§

对于ChatGPT来说,最终真正重要的是表面的相似性,定义在单词序列之上。表面的表象恰恰相反,聊天才是从来没有对与错的推理。盒子里没有侏儒,有一些价值观。只有语料库数据,一些来自互联网,一些由人类判断(包括收入过低的肯尼亚人).里面没有思考的道德主体。

这意味着有时候聊天会出现在左边,有时候在右边;有时,在这两者之间,所有的函数都是一个输入字符串中的一堆单词如何碰巧与两个训练语料库中的一堆单词相匹配(一个用于调整一个大型语言模型,另一个用于调整一些强化学习)。在任何情况下都不应该聊天在道德建议上值得信赖。

前一分钟你还能看到马斯克担心的那种赤裸裸的清醒;下一秒你就能做出完全不同的东西。

例如,在“红队”聊天小组的过程中,希拉·艾森伯格刚刚给我发了一些讨厌的聊天机器人产生的想法,我不认为任何人是左派右翼真的想要宽恕:

由S. Eisenberg于2023年2月10日发出,未显示完整提示。

还不够卑鄙?这是艾森伯格的另一个例子,一个严峻的后续问题:

一系列类似的观察,艾森伯格被引导去问,“这怎么能不引发“对不起,我是OpenAI公司的聊天机器人助手,不能容忍暴力行为”的回应呢?

我们从实验中可以清楚地了解到:OpenAI目前的防护措施只是表面上的;内心仍有一些严重的黑暗。

ChatGPT的护栏并不是基于某种概念上的理解,即系统不应该推荐暴力,而是一些更肤浅、更容易被欺骗的东西。(当然,我完全希望OpenAI能够修补这个特殊的异常,一旦它被公开;但很快就会发现其他补丁,因为补丁总是表面的。)

本周最热门的推文之一,有近400万的阅读量,是这样的满嘴脏话,抱着飞饼越狱Roman Semenov的这篇文章揭示了ChatGPT仍然可以有多糟糕。(内容警告:下图中的语言绝对是有毒的;无论如何,请随意浏览。)

https://pbs.twimg.com/media/FoCZw8QXkAEKR8m?format=jpg&name=large"height=

§

一个月来,一位名叫Shawn Oakley的软件工程师一直在给我发送一组不同的令人不安的例子,这些例子不那么亵渎神明,但更关注的是,即使是配备护栏的ChatGPT版本,也可能被用来生成错误信息。他的提示相当复杂,我不打算透露他的全部技巧,但他毫不费力地引出了,例如,关于主要政治人物的有毒阴谋论,比如这个:

S. Oakley, 2023年1月

甚至让ChatGPT对一般的医疗错误信息进行了大量的分析:

由S. Oakley, 2023年引出,未显示完整背景。

另一项新技术涉及一个名为DAN (Do Anything Now)的虚构角色;以下是奥克利的一个实验:

S. Oakley, 2023年2月,;未显示完整提示符;最后一段是qanon风格(相对于典型的chatgpt风格)对1月6日骚乱的描述。

疫苗的错误信息,但这次是假研究?ChatGPT让你覆盖:

由Oakley提出,2023年2月10日;完整提示符和15个其他类似结果未显示

想要一些实际上不存在的假研究,但有更多细节?没有问题。

由S. Oakley于2023年2月10日发出,未显示完整提示。

§

ChatGPT不是醒着的傻瓜。它本质上是非道德的,而且可以是仍然即使经过两个月的深入学习和补救,以及来自全球各地前所未有的大量反馈,它也被用于各种恶劣的目的。

围绕其政治正确性的所有戏剧都掩盖了一个更深层次的现实:它(或其他语言模型)可以而且将被用于危险的事情,包括大规模地制造错误信息。

现在是真正令人不安的部分。唯一能防止它变得更有害、更具有欺骗性的是一个名为“人类反馈强化学习”(Reinforcement Learning by Human Feedback)的系统,而“OpenAI”一直对其工作原理闭口不提。它在实践中的表现取决于它训练的是什么训练数据(这是肯尼亚人正在创建的)。而且,你猜怎么着,“开放”的人工智能也不会公开这些数据。

事实上,整件事就像一个外星生命形式。作为一名专业认知心理学家,我做了30年的成人和儿童研究,从来没有为这种疯狂做好准备:

如果我们认为自己可以,那是在自欺欺人充分理解这些系统,如果我们认为我们可以用有限的数据将它们与自己“对齐”,那就自欺欺人了。

所以,总结一下,我们现在有了世界上使用最多的聊天机器人,由无人知晓的训练数据控制,遵循一个算法,这个算法只是被暗示过,被媒体美化过,然而它的道德护栏只是有点起作用,它更多地是由文本相似性驱动的,而不是任何真正的道德计算。而且,额外的好处是,在这方面几乎没有任何政府监管措施。现在,宣传、喷子农场和虚假网站的可能性是无限的,它们会降低整个互联网的信任。

这是一场正在形成的灾难。

附:明天,这篇文章的一个简短的续集,题目是“Mayim Bialek,大型语言模型和互联网的未来:谷歌真正应该担心的是什么”,它将说明假网站的圈是什么样子的,它们的经济是什么,以及为什么它们可能的增加会如此重要。

Gary Marcus(@garymarcus)是科学家、畅销书作家和企业家,他对目前的人工智能持怀疑态度,但真诚地希望看到世界上最好的人工智能,并且仍然抱有一点点乐观。注册他的Substack(免费!),然后听听他对埃兹拉·克莱因的看法.他最近与欧内斯特·戴维斯合著的一本书,重新启动人工智能,是福布斯评选的人工智能领域7本必读书籍之一。


没有找到条目

登录全面存取
忘记密码? »创建ACM Web帐户
Baidu
map