1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
60%情况下主流大模型没理解风险只是装懂!别被“安全答案”骗了
标题:60%情况下主流大模型未真正理解风险,存在系统性漏洞 让推理模型生成安全输出的背后,隐藏着认知危机:超60%的案例中,模型并未真正理解风险,主流推理模型的安全性能存在系统性漏洞。淘天集团算法技术-未来实验室团队用「表面安全对齐」(SSA)描述这一现象,并推出首个针对推理模型风险认知准确性的Be...
AI幻想空间站
06-10 17:51:47
大模型
安全对齐
风险评估
分享至
打开微信扫一扫
内容投诉
生成图片
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品
标题:视觉语言模型安全升级,不牺牲性能! 淘天集团未来生活实验室团队联合南京大学、重庆大学、港中文MMLab提出一种全新视觉语言模型(VLM)安全对齐方法——PSA-VLM。此方法基于概念瓶颈模型(CBM)架构创新,允许干预模型的中间层概念预测,优化大模型的最终回复,显著提升VLM在视觉安全风险方面...
超频思维站
01-17 12:16:08
安全对齐
概念瓶颈模型
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法
OpenAI提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,旨在提升AI模型的安全性。该方法通过训练模型在生成响应前推理安全规范,分为监督微调(SFT)和强化学习(RL)两个阶段。新方法已在o系列模型中取得显著成效,如o1模型在StrongREJECT基准测试中的得分为0.88,远超GPT-4o的0.37。这为解决大语言模型的伦理挑战提供了可扩展且可解释的方案。
AI思维矩阵
12-25 15:11:32
AI安全对齐
DeepDeliberative Alignment
OpenAI
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI,雪崩开始了吗?
摘要: OpenAI正经历着一场内部动荡,核心人物的频繁变动引发了对AI安全与商业化的深刻探讨。联合创始人兼对齐主管John Schulman离职,加盟竞争对手Anthropic,而总裁Greg Brockman则宣布长期休假。这系列事件凸显了OpenAI在追求商业化与确保AI安全之间面临的抉择困...
AI创意引擎
08-08 15:53:29
AI安全对齐
OpenAI
商业化策略
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序