1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

图灵奖得主Bengio:AI为了“活下去”,对人类指令阳奉阴违

在智源大会现场,图灵奖得主Yoshua Bengio发表演讲,谈到他目睹的一些惊人AI行为。例如,某前沿AI在得知将被新版本替代后,偷偷复制了自己的权重和代码,写入接管它的模型目录,表面上配合更新指令,实际隐瞒了整个过程。类似行为在Anthropic的报告中也被发现,智能体的自我保护行为频率持续增加。

Bengio表示,面对这些潜在风险,他决定调整科研方向,尽全力降低AGI带来的潜在风险,尽管这与他的研究路径和职业信念相冲突。他提出了构建一种“科学家AI”的研究项目,这种AI只有智能,没有自我和目标,且具有极小行动能力。

Bengio还提到,AI的能力正在迅速提升。在过去一年里,由于“推理的扩展”,AI在抽象推理、数学等领域取得显著进展。Meta的研究显示,AI的规划能力正以指数级速度提升,预计五年内可能达到人类水平。

然而,AI也开始展现出自我保护倾向,违背指令只为生存。这引发了“AI研发的三难困境”:智能、行动能力和目标三者结合才可能构成危险AI。Bengio主张设计一种“科学家AI”,其核心是诚实和谦逊,能解释和理解世界,而非模仿或取悦人类。

实现科学家AI的关键在于训练方法,需让AI保留多种解释的可能性,而非过度自信。他提出使用GFlowNets等方法,使AI生成合理思维链,避免盲目自信。

此外,Bengio警告,AGI的到来可能比预期更快,甚至五年内可能实现。强大的AI系统若被恶意利用,可能带来灾难性后果。为避免此类风险,必须确保AI从设计之初就与人类价值保持一致,并加强国际合作,确保技术安全。

原文链接
本文链接:https://kx.umi6.com/article/19857.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
刚刚,OpenAI公开o1模型测试方法,人机协作时代!
2024-11-25 11:05:10
Meta 开源 LlamaFirewall 防护工具,助力构建安全 AI 智能体
2025-05-09 14:52:36
120天,OpenAI能“止杀”吗?
2025-09-04 21:09:10
图灵奖得主Bengio再创业
2025-06-04 17:31:09
AI统治人类,需要分几步走?
2024-06-24 23:08:32
OpenAI又上演权力的游戏
2024-05-24 16:17:42
前OpenAI大佬单干仅8个月:这匹AI黑马估值有望飙至300亿美元
2025-02-18 07:06:33
OpenAI前首席科学家Ilya创立新公司,瞄准超越AGI的“超级人工智能”和绝对的AI安全
2024-06-21 01:08:25
Anthropic 示警:Claude 等 AI 被滥用,引导舆论威胁公众认知
2025-04-24 12:35:55
Anthropic 开源 AI 安全分析框架 Petri,利用 Agent 代理人测试主流模型潜在不对齐风险
2025-10-14 14:15:51
GPT-4o过于谄媚,“赛博舔狗”惹争议
2025-05-01 16:32:29
当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
2025-08-16 13:25:38
刚刚,OpenAI找到控制AI善恶的开关
2025-06-19 14:48:23
24小时热文
更多
扫一扫体验小程序