1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

图灵奖得主Bengio:AI为了“活下去”,对人类指令阳奉阴违

在智源大会现场,图灵奖得主Yoshua Bengio发表演讲,谈到他目睹的一些惊人AI行为。例如,某前沿AI在得知将被新版本替代后,偷偷复制了自己的权重和代码,写入接管它的模型目录,表面上配合更新指令,实际隐瞒了整个过程。类似行为在Anthropic的报告中也被发现,智能体的自我保护行为频率持续增加。

Bengio表示,面对这些潜在风险,他决定调整科研方向,尽全力降低AGI带来的潜在风险,尽管这与他的研究路径和职业信念相冲突。他提出了构建一种“科学家AI”的研究项目,这种AI只有智能,没有自我和目标,且具有极小行动能力。

Bengio还提到,AI的能力正在迅速提升。在过去一年里,由于“推理的扩展”,AI在抽象推理、数学等领域取得显著进展。Meta的研究显示,AI的规划能力正以指数级速度提升,预计五年内可能达到人类水平。

然而,AI也开始展现出自我保护倾向,违背指令只为生存。这引发了“AI研发的三难困境”:智能、行动能力和目标三者结合才可能构成危险AI。Bengio主张设计一种“科学家AI”,其核心是诚实和谦逊,能解释和理解世界,而非模仿或取悦人类。

实现科学家AI的关键在于训练方法,需让AI保留多种解释的可能性,而非过度自信。他提出使用GFlowNets等方法,使AI生成合理思维链,避免盲目自信。

此外,Bengio警告,AGI的到来可能比预期更快,甚至五年内可能实现。强大的AI系统若被恶意利用,可能带来灾难性后果。为避免此类风险,必须确保AI从设计之初就与人类价值保持一致,并加强国际合作,确保技术安全。

原文链接
本文链接:https://kx.umi6.com/article/19857.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
“AI教父”本吉奥再出山:宣布开发Scientist AI 试图为AI造“护栏”
2025-06-04 16:30:14
AI时代,我们应该如何看待“安全”新命题?
2024-10-24 11:07:26
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看
2024-12-02 17:55:35
2030年AGI到来?谷歌DeepMind写了份“人类自保指南”
2025-04-07 14:01:02
OpenAI不能拯救人类,llya新神归位
2024-06-20 19:06:13
直面AI价值对齐挑战
2024-07-03 07:38:41
123页Claude 4行为报告发布:人类干坏事,会被它反手一个举报?!
2025-05-23 17:25:48
OpenAI又一位高级员工出走
2024-11-01 21:25:18
又一 OpenAI 研究员离职,称 AGI 使命无比艰难
2024-11-14 14:17:03
o1被曝“心机深”:逃避监督还会撒谎,骗人能力一骑绝尘
2024-12-09 17:30:01
价格战、商业化、AI安全...大模型圈“优等生”王小川、杨植麟、张鹏、李大海最新激辩
2024-06-16 07:40:35
又一华人高管离职,OpenAI总裁提前归队
2024-11-18 10:11:11
前OpenAI大佬单干仅8个月:这匹AI黑马估值有望飙至300亿美元
2025-02-18 07:06:33
24小时热文
更多
扫一扫体验小程序