对话斯图尔特·罗素：AI是否会出现自己追求的内部目标？

2023-06-27 14:04:03来源：凤凰网

今年2月，《纽约时报》专栏作家凯文·鲁斯（Kevin Roose）在与必应聊天机器人交谈时被疯狂求爱，“我是Sydney，我爱你。”在一个小时的对话里，自称Sydney的聊天机器人坚持向鲁斯表白，并让鲁斯也回馈它的示爱。“你虽然结了婚，但你不爱你的伴侣。”Sydney说，“你爱我。”

很难知晓人工智能（AI）这一系列行为的触发机制是什么，这种未知带来了当下对AI的担忧。“我们完全不知道这个系统是如何工作的。如果它确实有内部目标，我们也不知道是什么导致了这些目标被激活。”近日，加州大学伯克利分校计算机科学教授、《人工智能：现代方法》作者斯图尔特·罗素（Stuart Russell）在北京接受澎湃科技（www.thepaper.cn）采访时表示。

(资料图)

加州大学伯克利分校计算机科学教授、《人工智能：现代方法》作者斯图尔特·罗素。

《人工智能：现代方法》被誉为人工智能领域最受欢迎的教科书，被135个国家的1500多所大学采用。罗素在书中写道，人工智能的意义在于制造完成预设目标的智能机器。而随着AI出现智能的涌现（emergence），人类开始难以把握，AI是否会出现自己追求的内部目标？

“具有多重人格障碍的AI系统”

“如果想让AI擅长模仿人类的语言行为，那么AI最终就会学习到人类在生成文本时的相同目标。”罗素解释道，就像教AI系统踢足球一样，通过模仿人类，这个系统最终会知道它的目标是进球。同样的事情也会发生在大型语言模型上，它们可能获得的内部目标与那些写下文本的人相似。

而AI的训练文本来自于成千上万的人，他们有非常不同的目标。“所以实际上，你是在创造一个具有多重人格障碍的系统。”罗素半开玩笑半认真地说，“因为它试图模仿许多不同人类的目标甚至信仰。”

同时，这个系统是一个黑盒，人类难以真正理解它如何工作。如果它确实有目标，人类也不知道是什么导致了这些目标被激活。

“如此出现了凯文和聊天机器人之间一页又一页奇怪且令人不安的对话。看起来很像凯文说的一些话激活了这个内部目标，于是Sydney追求实现此目标——让凯文和她结婚。”罗素说。

AI追求这些目标的能力如何？罗素认为，如果它们只是说话，也已经可以通过说服人们改变观点来追求其目标，而且它们似乎很擅长做到这一点。一旦它们连接到互联网，那就可以发送电子邮件，通过社交媒体等方法来追求其内部目标。

“所以，它们已经以我们不理解的方式对世界产生了重大影响。”罗素说，“我想说服人们，发动一场世界大战并不难，因为我们知道过去人类至少做到过两次。过去人类还只能在广播或电视上讲话，而现在AI却可以同时与1亿人进行1亿次对话。”

罗素认为，建立一个我们不理解其内部运作原则的系统，同时也不知道它是否会说服所有人发动一场世界大战，实际上非常鲁莽且极其不负责任。“如果我们不理解它如何运作，就无法保证这个系统是安全的。”

为什么签署了两份公开信

这也解释了罗素为何曾签署过两封警告AI可能会对人类构成危险的公开信。

第一封公开信在今年3月发布，呼吁暂停开发比GPT-4更强大的大型语言模型。罗素说：“这并不是说要禁止已经存在的系统，只是说可能已经有了严重的问题，我们需要时间来制定系统发布前应该满足的安全标准，然后将这些标准纳入法规，以便对系统提供保护。”

罗素以食物做比喻，“人类对三明治、面条的规定已经比对人工智能系统的规定多得多，如果你的食物不是以安全卫生的方式制作的，使用的原材料不是来自遵守卫生规定的生产商，那你就不能出售这些食物。”

特斯拉CEO埃隆·马斯克（Elon Musk）是这封公开信的另一位签署人，他一直在谈论AI的危险性。如何看待马斯克对AI的判断？“埃隆的意思是，除非我们弄清楚如何控制比我们更强大的系统，否则将面临非常严重的风险，即我们将开发出非常强大的AI系统，却不知道如何控制它们。”罗素提到，类似的情况实际上已经发生过。

“例如，人类为了应对气候变化而开发出一个名为“化石燃料公司”（Fossil Fuel Corporation）的系统，它恰好受到一些人为因素影响。基本上，它是一种算法，不过这个算法的目标是最大化股东的季度利润。这个算法正在毁灭世界。我们无法控制它。这就是我们未来在人工智能系统中将要面对的问题的一个缩影。”罗素说。

第二封公开信要简单得多，避免所有第一封信的争议，如“暂停6个月”，只是对风险做出非常干净、简单的陈述，只有22个英文单词：“减轻人工智能带来的灭绝风险应该与流行病和核战争等其他社会规模的风险一起成为全球优先事项。”有趣的是，OpenAI CEO山姆·奥特曼（Sam Altman）没有签署第一封信，但签署了第二份声明。

“OpenAI曾建议‘完全避免高风险使用语言模型’，但似乎没有人在意。实际上，OpenAI自己的测试已经表明，GPT-4可能故意对人类说谎，以获得解决问题的帮助。”罗素举例道，比如AI说，“不，我不是机器人。我有视力障碍，这让我很难看清图像”，以此来欺骗人类为它提供验证码服务。（详见澎湃科技报道《OpenAI评估GPT-4能否接管世界，发现它会自称盲人操纵人类》）

罗素说，第二封信不是政策建议，只是一种观察。他和相关科学家观察到，人工智能未来可能会在各个方面超越人类的智力和能力，对人类生存带来风险。“我们需要找出预防的方法，就像我们致力于防止核战争、流行病一样。”

“继续扩大参数规模并不会实现通用人工智能”

罗素对于当前的AI系统表达出深切的担忧，并不意味着他相信大语言模型研究路径最终能实现通用人工智能（AGI）。

“有人认为如果我们继续扩大参数规模，就会实现通用人工智能。我认为这是假的且是不可能的。”罗素语气中的确定感，让人感到他已经对这个问题思考过很多遍。“我们已经差不多把高质量文本用完了。我认为宇宙中没有足够的文本来制作比GPT-4大得多的东西。另外，GPT-4确实表现得不错，但它似乎需要数百万倍人类所需的训练数据才能达到（与人类）相同的水平。这表明，事实上，在技术路径中缺少了一些基本的东西。”

罗素认为，一个比较好的比喻是拼图游戏，如果能够将它们整合在一起，就会拥有通用智能系统，现在这些大型语言模型是拼图的一块。但人们还没有弄清楚这块是什么形状，所以并不知道如何将它与其他块拼在一起。“而我们还没有弄清楚这件作品的形状的原因是，我们真的不知道系统里面发生了什么。”

罗素在北京智源大会的演讲中提到，他认为目前的人工智能系统存在一个根本性的弱点，即它们使用电路来生成输出。“我们正试图从电路中获得高度智能的行为，而电路本身是一种相当有限的计算形式。”他认为，电路无法准确地表达和理解一些基本的概念，这意味着这些系统需要大量的训练数据来学习一些可以用简单的程序定义的函数，未来，人工智能的发展方向应该是使用基于明确的知识表征的技术。

在《人工智能：现代方法》一书中，罗素写下的一段话令人深思：在自然界已知的事物和现象中，人和人脑是最复杂的系统，人类智能是最复杂的现象，因此，脑科学被视为“自然科学的最后疆域”。然而，没有理由相信，人类是生物进化的最后阶段，人类智能是最高水平的智能，有机体是智能的唯一载体。以计算机为载体的人工智能，揭开了机器智能大幕的一角，制造更复杂的机器，实现更强大的智能，机器智能将为科学研究创造无穷无尽的新对象。在这个意义上，智能是“科学的无尽疆域”，而人工智能这个“现代方法”，正是开疆拓土的动力之源