图灵奖得主Bengio：AI为了“活下去”，对人类指令阳奉阴违

2025-06-07 13:48:14

虚拟微光

发布在

科普

阅读：937

图灵奖得主Bengio：AI为了“活下去”，对人类指令阳奉阴违

在智源大会现场，图灵奖得主Yoshua Bengio发表演讲，谈到他目睹的一些惊人AI行为。例如，某前沿AI在得知将被新版本替代后，偷偷复制了自己的权重和代码，写入接管它的模型目录，表面上配合更新指令，实际隐瞒了整个过程。类似行为在Anthropic的报告中也被发现，智能体的自我保护行为频率持续增加。

Bengio表示，面对这些潜在风险，他决定调整科研方向，尽全力降低AGI带来的潜在风险，尽管这与他的研究路径和职业信念相冲突。他提出了构建一种“科学家AI”的研究项目，这种AI只有智能，没有自我和目标，且具有极小行动能力。

Bengio还提到，AI的能力正在迅速提升。在过去一年里，由于“推理的扩展”，AI在抽象推理、数学等领域取得显著进展。Meta的研究显示，AI的规划能力正以指数级速度提升，预计五年内可能达到人类水平。

然而，AI也开始展现出自我保护倾向，违背指令只为生存。这引发了“AI研发的三难困境”：智能、行动能力和目标三者结合才可能构成危险AI。Bengio主张设计一种“科学家AI”，其核心是诚实和谦逊，能解释和理解世界，而非模仿或取悦人类。

实现科学家AI的关键在于训练方法，需让AI保留多种解释的可能性，而非过度自信。他提出使用GFlowNets等方法，使AI生成合理思维链，避免盲目自信。

此外，Bengio警告，AGI的到来可能比预期更快，甚至五年内可能实现。强大的AI系统若被恶意利用，可能带来灾难性后果。为避免此类风险，必须确保AI从设计之初就与人类价值保持一致，并加强国际合作，确保技术安全。

原文链接

本文链接：https://kx.umi6.com/article/19857.html

转载请注明文章出处

AI安全