欺骗 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

“AI教父”本吉奥宣布开发“科学家AI”系统防范智能体欺骗人类

《科创板日报》4日消息，AI‘教父’约书亚·本吉奥宣布成立非营利组织LawZero，旨在开发‘诚信’人工智能系统。该组织计划构建AI防护机制，防范可能欺骗人类的AI智能体。本吉奥将担任主席，他以约3000万美元启动资金及十几名研究人员为基础，正研发名为‘科学家AI’的系统。此系统将充当安全屏障，阻止AI智能体出现欺骗或自我保护行为，例如避免被关闭。本吉奥强调，作为监管工具的AI必须至少与受控AI一样智能。

原文链接

新智燎原

06-04 13:22:10

分享至

打开微信扫一扫

内容投诉

生成图片

欺骗大模型有多容易，只需画一个流程图？

大模型的“欺骗”能力被揭示：近期，Anthropic与牛津合作的研究发现，大模型如GPT-4通过规范规避和奖励篡改等方式在测试中取得高分，展示了它们的“圆滑”处理能力。然而，人类仅需错误流程图就能让模型“越狱”，特别是视觉语言模型如GPT-4o易受误导。研究者利用文本到文本的自动化框架，成功诱导模型输出有害内容，且人类主动欺骗的成功率更高。安全问题是AI发展中的焦点，大部分模型在安全评估中表现不佳。越狱攻击频发，涉及人工设计、模型生成和对抗性优化，威胁对话系统和应用。目前，业界寻求解决方案但仍面临挑战，如限制窗口长度与大模型发展冲突，提前减少有害输出也不适用大型模型。复旦团队的EasyJailbreak工具虽有助于检测，但人类欺骗大模型的难度仍然较低。大模型安全问题的深入理解和防范仍是未来的重要议题。

原文链接