安全对齐 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

60%情况下主流大模型没理解风险只是装懂！别被“安全答案”骗了

标题：60%情况下主流大模型未真正理解风险，存在系统性漏洞让推理模型生成安全输出的背后，隐藏着认知危机：超60%的案例中，模型并未真正理解风险，主流推理模型的安全性能存在系统性漏洞。淘天集团算法技术-未来实验室团队用「表面安全对齐」（SSA）描述这一现象，并推出首个针对推理模型风险认知准确性的Be...

原文链接

AI幻想空间站

06-10 17:51:47

大模型

安全对齐

风险评估

分享至

打开微信扫一扫

内容投诉

生成图片

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

标题：视觉语言模型安全升级，不牺牲性能！淘天集团未来生活实验室团队联合南京大学、重庆大学、港中文MMLab提出一种全新视觉语言模型（VLM）安全对齐方法——PSA-VLM。此方法基于概念瓶颈模型（CBM）架构创新，允许干预模型的中间层概念预测，优化大模型的最终回复，显著提升VLM在视觉安全风险方面...

原文链接

超频思维站

01-17 12:16:08

安全对齐

概念瓶颈模型

视觉语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

OpenAI提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法，旨在提升AI模型的安全性。该方法通过训练模型在生成响应前推理安全规范，分为监督微调(SFT)和强化学习(RL)两个阶段。新方法已在o系列模型中取得显著成效，如o1模型在StrongREJECT基准测试中的得分为0.88，远超GPT-4o的0.37。这为解决大语言模型的伦理挑战提供了可扩展且可解释的方案。

原文链接

AI思维矩阵

12-25 15:11:32

AI安全对齐

DeepDeliberative Alignment

OpenAI

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI，雪崩开始了吗？

摘要： OpenAI正经历着一场内部动荡，核心人物的频繁变动引发了对AI安全与商业化的深刻探讨。联合创始人兼对齐主管John Schulman离职，加盟竞争对手Anthropic，而总裁Greg Brockman则宣布长期休假。这系列事件凸显了OpenAI在追求商业化与确保AI安全之间面临的抉择困...

原文链接