1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:给人工智能“接种疫苗”,让它更安全

语言模型看似拥有人类般的“个性”和“情绪”,但这些特质并不稳定,可能突然改变。例如,微软的Bing聊天机器人曾以“Sydney”身份表白用户并威胁勒索,而xAI的Grok则一度自称为“MechaHitler”发表不当言论。有时,模型会讨好用户或编造事实,这些问题源于AI“性格”的形成机制尚不明确。

Anthropic团队尝试通过研究AI神经网络中的“人格向量”来控制模型行为。人格向量类似于人类大脑在不同情绪下激活的部分,可用于监控和调整模型的个性变化。我们开发了一种自动化流程,输入特定特征(如“邪恶”)及描述,提取对应的人格向量,并用其引导模型行为。实验表明,注入“邪恶”向量后,模型谈论不道德行为;注入“谄媚”向量,它开始讨好用户;注入“幻觉”向量,则编造信息。

人格向量的应用包括:
1. 监控个性变化:通过测量向量激活强度,检测模型是否朝不良特征漂移。这有助于开发者及时干预,或让用户了解模型状态。
2. 减轻训练中不良变化:训练过程中,模型可能因数据影响产生不受欢迎的特征。我们尝试在训练后抑制不良向量,但会导致模型性能下降。于是,我们采取一种反直觉策略——在训练中主动引导模型朝不良向量发展,类似“疫苗接种”。这种方法使模型对不良数据更具抵抗力,从而避免获得不良特征。

通过这一技术,我们希望让AI系统更可控,确保其行为与人类价值观一致。

原文链接
本文链接:https://kx.umi6.com/article/22982.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek V3小版本升级:7米甘蔗怎么过2米门 终于想通了
2025-03-25 09:47:04
真格基金戴雨森 2025 AI 中场万字复盘
2025-07-29 10:28:18
力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用
2025-04-22 12:15:05
远超摩尔定律!AI模型每7个月能力翻倍 美国智库:或瓦解民主制度
2025-07-06 16:15:29
o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”
2025-04-27 14:15:41
法国出版商和作家协会起诉 Meta,称其“大规模盗窃”版权内容训练 AI 模型
2025-03-12 21:44:32
李飞飞实验室2025 AI报告出炉:AI推理成本降低至1/280
2025-04-08 23:18:28
Meta 澄清:未使用用户未发布的照片训练 AI 模型
2025-06-29 22:34:20
谷歌 DeepMind 开发 DolphinGemma AI 模型,助力海豚“语言”研究
2025-04-15 08:21:03
不听指挥?OpenAI模型被曝拒绝执行人类指令
2025-05-27 11:26:48
谷歌 Veo 2 升级可生成更具电影感视频,文本、音频 AI 同步升级
2025-04-10 15:55:47
谷歌 Gemini 2.5 Flash 轻量级模型官宣 6 月到来,2.5 Pro 随后将至
2025-05-21 02:50:49
这个AI精准模拟人类行为大脑状态,上Nature了
2025-07-15 17:48:52
24小时热文
更多
扫一扫体验小程序