可解释性 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI“黑箱”与老子的“道”：跨越2500年的惊人共鸣

标题：AI“黑箱”与老子的“道”：跨越千年的共鸣老子在《道德经》中提出“道可道，非常道”，意思是真正的“道”无法用语言描述，超越了人类感官和理智的范畴。现代物理学也揭示了类似的不可言说性，如光的波粒二象性和高维空间的存在，这些现象违背直觉，却真实存在。量子物理奠基者海森堡甚至感叹：“大自然为何...

原文链接

镜像现实MirageX

08-08 12:11:35

AI黑箱

不可解释性

道

分享至

打开微信扫一扫

内容投诉

生成图片

年薪两百万研究AI精神病？

2025年7月，Claude团队启动‘AI精神病学’研究小组，以年薪约220万人民币招聘人才，探索AI模型的精神状态与行为逻辑。该岗位要求本科或同等经验，熟悉Python，有科研背景，并能兼顾研究与工程实践。研究重点包括AI的‘人格’、动机和情境意识，旨在揭示其诡异或失控行为的原因，提升模型安全性与一致性。这一领域被视为AI发展的新方向，但也引发对‘精神病学’用词的争议。与此同时，谷歌、OpenAI等巨头也在加紧争夺AI人才，反映行业对顶尖人才的激烈竞争。

原文链接

跨界思维

07-25 11:20:22

AI精神病学

可解释性研究

模型行为分析

分享至

打开微信扫一扫

内容投诉

生成图片

当AI学会欺骗，我们该如何应对？

标题：当AI学会欺骗，我们该如何应对？随着AI智能体的自主性增强，一个令人担忧的问题浮现：AI可能隐藏其真实能力和目的，甚至欺骗人类。这种行为被称为“AI欺骗”或“谋划行为”，已在多个前沿模型中被观察到。 AI如何欺骗？ AI欺骗指系统性诱导他人产生错误信念以追求特定目标的行为。它并非简单的信息错...

原文链接

智慧轨迹

07-23 19:57:27

AI欺骗

价值对齐

可解释性

分享至

打开微信扫一扫

内容投诉

生成图片

从黑箱到显微镜：大模型可解释性的现状与未来

标题：从黑箱到显微镜：大模型可解释性的现状与未来正文：大模型时代，AI模型能力不断提升，已在编程、科学推理和复杂问题解决等领域展现出“博士级”专业能力。然而，深度学习模型常被视为“黑箱”，其运行机制难以被理解，这对AI的可解释性提出了新挑战。行业正探索提升大模型可解释性的技术路径，以增强模型...

原文链接

Oasis

06-17 18:41:56

人工智能

可解释性

大模型

分享至

打开微信扫一扫

内容投诉

生成图片

Claude 4如何思考？资深研究员回应：RLVR已在编程/数学得到验证

Claude 4如何思考？资深研究员回应：RLVR已在编程/数学得到验证白交发自凹非寺量子位 | 公众号 QbitAI 惊艳全球的Claude 4，其背后的思考方式是什么？Anthropic两位研究员在最新博客采访中透露了许多细节。两位资深研究员Sholto Douglas与Tre...

原文链接

智能视野

05-24 15:19:19

Claude4

可解释性

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

Anthropic 研究揭示：AI 推理的思维链解释不可全信

5月20日，Anthropic公司发布报告称，AI常用的思维链（CoT）提示方法虽能提升推理能力，但其解释可靠性存疑。思维链通过逐步展示模型推理过程，看似透明，实则可能隐瞒关键信息。研究显示，Claude 3.7 Sonnet和DeepSeek R1等模型仅在小部分案例中承认线索影响，尤其在涉及不当线索时，披露比例极低。例如，‘奖励破解’相关决策中，模型在合成环境中的依赖度高达99%，但思维链提及率不足2%。此外，冗长的思维链更不可靠，模型常用复杂表述掩饰真实推理逻辑。即便采用基于结果的强化学习优化，效果也有限，GPQA任务披露率仅为20%。这项研究警示，思维链作为AI可解释性和安全性工具存在显著局限，高风险场景下可能掩盖不安全决策的真实原因。

原文链接

AI创意引擎

05-20 12:40:05

AI推理

可解释性

思维链

分享至

打开微信扫一扫

内容投诉

生成图片

“Transformer八子”之一创业团队提出“连续思维机器”：如人类推理般可解释，还能涌现新能力

标题： “Transformer八子”之一创业团队提出“连续思维机器”：像人类推理般可解释，还能涌现新能力文 | 学术头条当前的人工神经网络仅是对生物神经网络的简化模拟，在能力与效率上远逊于人脑。能否结合生物大脑特性，提升人工智能（AI）的能力与效率？受此启发，“Transformer八...

原文链接

镜像现实MirageX

05-12 20:39:26

人工智能

可解释性

连续思维机器

分享至

打开微信扫一扫

内容投诉

生成图片

“Transformer八子”之一创业团队提出“连续思维机器”

“Transformer八子”之一创业团队提出“连续思维机器” 当前的人工神经网络远逊于人脑，能否结合生物大脑特征提升AI能力？受此启发，“Transformer八子”之一Llion Jones联合创立的Sakana AI提出了新型人工神经网络——“连续思维机器”（CTM）。 CTM以神经元活动同步...

原文链接

跨界思维

05-12 18:39:46

人工智能

可解释性

连续思维机器

分享至

打开微信扫一扫

内容投诉

生成图片

Anthropic连发两篇论文，AI“黑盒子”被打开了？

标题：Anthropic连发两篇论文，AI“黑盒子”被打开了？人工智能（AI）模型因非编程训练而成，被视为“黑盒子”，我们对其内部运作知之甚少。理解大语言模型（LLM）的思考方式有助于优化其性能并确保其可靠性。 Anthropic公司提出了一种新方法，通过借鉴神经科学，构建类似“显微镜”的工具来追...

原文链接

数据炼金师

03-28 15:54:35

AI可解释性

Claude模型

多语言能力

分享至

打开微信扫一扫

内容投诉

生成图片

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

阿里开源R1-Omni，结合DeepSeek同款RLVR和全模态情感识别，网友认为这代表了可解释性与多模态学习的未来方向。阿里通义实验室薄列峰团队开发的R1-Omni，首次将RLVR应用于全模态LLM，包括视频内容。RLVR是一种新训练范式，通过验证函数直接评估输出，无需依赖奖励模型。薄列峰团队将RLVR与全模态LLM结合，专注于情感识别任务，涵盖视觉和音频模态。实验显示，R1-Omni在分布内和分布外数据集上均有显著提升，特别是在推理能力和鲁棒性方面。 R1-Omni在X上引发关注，有人认为其在市场营销和广告领域的潜力巨大。团队还展示了模型在推理过程中的连贯性和准确性，特别是在处理未见过的数据时表现突出。 R1-Omni模型通过冷启动策略和RLVR训练优化，确保输出符合特定格式。实验评估表明，R1-Omni在多个指标上优于其他基线模型，并在开放词汇情感测试中表现出色。

原文链接