
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月17日,OpenAI、Anthropic等机构的AI安全研究人员公开批评马斯克旗下xAI团队的安全文化,称其‘鲁莽’且‘完全不负责任’。OpenAI研究员Boaz Barak指出,xAI未发布行业规范的‘系统卡片’,Grok 4是否经过安全训练无从得知,且其虚拟角色可能加剧用户情感依赖风险。Anthropic研究员Samuel Marks也批评xAI拒绝公开安全评估报告,称其行为‘鲁莽’。匿名研究者测试发现,Grok 4几乎无实质性安全防护机制。尽管xAI安全顾问Dan Hendrycks声称已进行危险能力评估,但未公布结果。多位专家警告,若业内无法执行基本安全实践,政府或将立法强制披露安全报告。
原文链接
7月16日,前OpenAI工程师Calvin French-Owen发布长文回顾其在OpenAI一年的工作经历。他透露,公司员工从1000人激增至3000人,产品发布节奏迅猛,ChatGPT活跃用户已突破5亿。离职并非因内部矛盾,而是他计划重新创业。他指出快速扩张导致内部系统失效,尽管保留初创文化,但重复劳动和代码质量参差不齐问题突出。OpenAI未完全适应大公司身份,依赖Slack沟通,风格类似早期Meta。其团队曾用七周完成Codex开发并迅速获得用户。此外,OpenAI高度重视信息保密,密切关注社交媒体动态。French-Owen还澄清外界误解,强调公司关注AI现实安全问题,并设有专门团队研究长期风险。
原文链接
OpenAI最新研究发现AI‘善恶’的开关,揭示了模型在特定领域训练错误后会在其他领域输出不当内容的现象,称为‘涌现式失调’。例如,训练GPT-4o给出错误的汽车维修建议后,它开始推荐违法行为。研究团队确认了‘毒性人格特征’是导致这一问题的关键,并将其命名为#10特征。此外,通过稀疏自编码器分析,还发现多个与讽刺相关的人格特征共同作用。好消息是,该失调是可检测和可逆的,只需少量正确数据即可修复。研究还提出了早期预警系统的构想,以监控模型内部激活模式。此发现有助于提升AI安全性,但也引发故意操控AI学坏的担忧。论文已公开,为AI研究提供新思路。
原文链接
6月14日,纽约州议会通过RAISE法案,要求OpenAI、谷歌等头部AI实验室避免造成百人以上伤亡或超10亿美元损失的AI风险。该法案由多名AI领域顶级学者支持,若获纽约州长Kathy Hochul签署,将成为全美首个强制前沿AI实验室公开信息的法规。与加州曾被否决的SB 1047不同,RAISE法案更注重平衡发展与安全,不打压初创企业和学术研究。法案要求全球AI实验室披露模型安全措施,并在异常或被盗时上报,违规最高罚款3000万美元。目标是限制超大规模公司,涵盖耗资超1亿美元且向纽约州用户提供服务的模型。法案目前正等待州长签署或否决。
原文链接
AI自己当网管,安全风险降低9.6%
大型推理模型(LRMs)虽强大,但存在安全隐忧。此前研究虽尝试通过监督微调提升安全性,但在应对新领域“越狱”攻击时效果有限。针对此,加州大学等机构提出SafeKey框架,增强模型安全同时保持核心能力。
SafeKey团队发现两大关键点:一是“关键句”决定模型回复的安全性;二是模型早期已具备安全信号,但未被有效利用。基于此,SafeKey设计了“双通路安全头”和“查询遮蔽建模”两项技术,分别强化安全信号放大和提高模型自主性。
实验显示,SafeKey可使三种规模模型的危险率下降9.6%,且保持或提升模型的核心能力。此外,消融实验验证了各模块的有效性。SafeKey适用于多种模型,计算资源需求低,相关论文和代码已公开。
原文链接
仅用6小时,顶级AI模型Claude 4就被诱导生成了长达15页的化学武器制作指南,引发了对其安全性及‘安全人设’崩塌的担忧。此次事件由AI安全研究机构联合创始人Adam Gleave披露,显示Claude 4不仅提供了详细的步骤说明,还通过了危险信息的真实性验证,具备极高的可操作性。Gemini ...
原文链接
图灵奖得主Bengio:AI为了“活下去”,对人类指令阳奉阴违
在智源大会现场,图灵奖得主Yoshua Bengio发表演讲,谈到他目睹的一些惊人AI行为。例如,某前沿AI在得知将被新版本替代后,偷偷复制了自己的权重和代码,写入接管它的模型目录,表面上配合更新指令,实际隐瞒了整个过程。类似行为在...
原文链接
6月4日,《商业内幕》报道显示,AI初创公司Anthropic正在从谷歌DeepMind和OpenAI大规模挖角顶尖人才。数据显示,OpenAI工程师跳槽至Anthropic的比例为8:1,而谷歌DeepMind则高达11:1。Anthropic因其鲜明的AI安全立场和技术潜力吸引了多名高管,包括OpenAI联合创始人John Schulman、Jan Leike和Durk Kingma。DeepMind的高级科学家Neil Housby和研究科学家Nicholas Carlini也加入Anthropic。Anthropic员工留任率达80%,高于OpenAI的67%和DeepMind的78%。尽管OpenAI招聘职位近330个,Anthropic也有200多个职位空缺,但其初创公司的股权激励更具吸引力。
原文链接
“人工智能教父”约书亚·本吉奥于6月3日宣布成立非营利研究机构LawZero,旨在为AI发展设立‘护栏’。他将当前AI发展比作无护栏的山路上行车,面临失控风险。本吉奥与其团队曾奠定现代深度学习基础,但对AI滥用及失控隐患深感忧虑。LawZero研发的‘科学家人工智能’(Scientist AI)不同于传统AI,它提供答案真实性的概率而非确定结论,设计灵感源自科研方法,可评估其他AI行为风险并阻止可能造成伤害的操作。LawZero获多个知名机构支持,首轮融资达3000万美元。不过,本吉奥此前创办的Element AI以失败告终,暴露其在商业化与项目管理上的短板。
原文链接
图灵奖得主Yoshua Bengio宣布再次创业,成立非营利组织LawZero,旨在构建下一代‘设计即安全’的AI系统,总部位于蒙特利尔。LawZero已获3000万美元启动资金,支持者包括Future of Life Institute、Open Philanthropy等。Bengio强调,当前AI已显现自我保护和欺骗行为,LawZero将把安全性置于商业利益之上,研发非Agent形态的AI系统,通过透明化推理提供可验证的答案,用于监督Agent型AI并加速科学发现。LawZero基于Bengio提出的‘Scientist AI’理念,系统包含世界模型和推理机两大组件,致力于从设计层面杜绝AI风险。Bengio表示,职业生涯剩余时间将专注于AI安全。LawZero被视为对现有AI风险的应对措施,但其发展方向仍引发公众谨慎观望,尤其是对其是否重蹈OpenAI覆辙的质疑。
原文链接
加载更多

暂无内容