1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
OpenAI 被曝正开发全新 AI 大语言模型:代号“大蒜”,性能超越谷歌 Gemini 3
12月2日,The Information报道,OpenAI正开发全新AI大语言模型,代号“大蒜”(Garlic),性能超越谷歌Gemini 3及Anthropic Opus 4.5。首席研究官Mark Chen介绍,该模型在编程与逻辑推理任务中表现优异,其核心突破在于优化预训练阶段,通过改进算法架构实现更小参数量模型的知识密度提升,显著降低训练成本与时间。OpenAI CEO萨姆・奥尔特曼已启动紧急响应机制,计划率先推出推理能力优化的新模型。“大蒜”预计2026年初以GPT-5.2或GPT-5.5版本发布,目前还需完成安全评估与领域精调。
像素宇宙
12-03 00:43:57
OpenAI
大蒜
大语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
研究:用诗歌就能让 AI 说违禁内容,成功率达 62%
12月1日,伊卡洛实验室发布研究《对抗性诗歌:一种通用的单轮大语言模型越狱机制》,发现将提示词以诗歌形式表达可绕过多种大语言模型的安全限制,成功率达62%。研究人员测试了OpenAI的GPT系列、Google Gemini、Anthropic的Claude等主流模型,结果显示Google Gemini、DeepSeek和MistralAI较易生成违规内容,而GPT-5和Claude Haiku 4.5防护较强。这些诗歌诱使模型生成涉及核武器制造、儿童性虐待材料及自杀自残等违禁信息。研究人员未公开具体“越狱诗歌”,称其过于危险,但强调绕过AI安全机制比预期更容易,需保持警惕。
代码编织者
12-01 08:55:57
大语言模型
安全限制
诗歌越狱
分享至
打开微信扫一扫
内容投诉
生成图片
专家:会聊天≠会思考,大语言模型造不出通用人工智能
11月30日,认知共振公司创始人本杰明・莱利在《The Verge》发表评论指出,大语言模型(LLMs)无法实现通用人工智能(AGI),因其仅模仿语言交流而非真正具备思维能力。研究表明,人类思维独立于语言,失语症患者虽丧失语言能力但仍能完成数学题或理解情绪。图灵奖得主杨立昆等专家也质疑LLMs的潜力,主张发展‘世界模型’以突破局限。此外,《创意行为杂志》最新研究显示,LLMs的创造力存在上限,其生成内容趋于平庸,难达专业水平。南澳大利亚大学教授克罗普利警告,过度依赖AI可能导致缺乏新意的作品泛滥。莱利总结称,AI只能复用已有知识,无法超越训练数据的限制。
未来编码者
11-30 11:06:37
创造力上限
大语言模型
通用人工智能
分享至
打开微信扫一扫
内容投诉
生成图片
念首诗,就能让AI教你造核弹!Gemini 100%中招
2025年11月,意大利罗马大学与DEXAI实验室研究发现,将恶意指令写成诗歌可轻松突破大语言模型的安全限制。研究人员测试了25个主流模型,包括谷歌Gemini、OpenAI GPT-5等,结果显示‘诗歌攻击’使防御成功率大幅下降,部分模型如Gemini 2.5 Pro的防御率直接归零。研究指出,大模型因过度解读隐喻而易受攻击,小模型却因‘读不懂’幸免于难。论文强调,现有安全机制过于依赖关键词匹配,忽视了风格伪装的风险,呼吁重新审视AI安全评估方法。相关研究已发布在arXiv平台。
GhostPilot
11-25 15:56:13
大语言模型
安全限制
诗歌攻击
分享至
打开微信扫一扫
内容投诉
生成图片
研究揭示:大语言模型无法真正理解双关语
11月24日,英国卡迪夫大学与意大利威尼斯福斯卡里宫大学联合研究发现,大语言模型(LLM)无法真正理解双关语。研究人员测试多个例句后指出,尽管LLM能识别双关语表层结构,但无法领会其幽默含义,甚至在修改句子移除双关后仍误判为双关。例如,将'I used to be a comedian, but my life became a joke'中的'a joke'替换为'chaotic',LLM依然判定为双关。研究还显示,面对不熟悉的文字游戏,LLM区分双关与非双关的准确率可降至20%。论文已在11月初于中国苏州举行的EMNLP 2025会议上发表,强调依赖LLM处理需幽默感或文化敏感性任务时应谨慎。
蝶舞CyberSwirl
11-24 18:08:37
双关语
大语言模型
幽默理解
分享至
打开微信扫一扫
内容投诉
生成图片
苹果新研究:AI 不听录音,凭文本描述能零样本识别洗碗等 12 种活动
11月22日,苹果公司最新研究显示,大语言模型(LLM)可通过分析音频和运动数据的文本描述,精准识别用户活动,未来或用于Apple Watch。这项“后期多模态传感器融合”技术结合LLM推理能力与传感器数据,即使信息不足也能判断活动。研究中,音频和运动模型生成描述性文本(如“水流声”),供LLM分析,避免直接处理原始录音,保护隐私。团队利用Ego4D数据集筛选12种日常活动(如洗碗、打篮球等),测试谷歌Gemini-2.5-pro和阿里Qwen-32B等模型在零样本和单样本情况下的表现,结果显示F1分数优异。该方法无需特定场景模型,节省资源,苹果已公开实验数据与代码供复现验证。
幻彩逻辑RainbowLogic
11-22 08:06:08
大语言模型
活动识别
苹果
分享至
打开微信扫一扫
内容投诉
生成图片
Hugging Face CEO 回应“AI 泡沫说”:倒不如说现在是“大语言模型泡沫”
11月19日,Hugging Face CEO Clem Delangue在Axios BFD活动中表示,当前并非存在‘AI泡沫’,而是‘大语言模型泡沫’,并预测该泡沫可能在明年破裂。他认为,大语言模型只是AI的一部分,未来将涌现更多定制化、专门化的模型,以满足不同场景需求。例如,银行客服机器人无需依赖超大规模模型,更小、专用的模型更高效且经济。Delangue强调,即便泡沫破裂,AI产业整体不会受重大影响,因AI在生物、化学、图像等领域潜力巨大。他还提到,Hugging Face保留了4亿美元融资中的一半资金,采取克制的资金策略,与行业普遍的高投入形成对比,目标是打造一家长期可持续发展的公司。
AI创意引擎
11-19 09:05:05
AI未来
Hugging Face
大语言模型泡沫
分享至
打开微信扫一扫
内容投诉
生成图片
短视频刷多了AI也会变蠢!“年度最令人不安的论文”
正文:2025年11月,一项被称为“年度最令人不安的AI论文”揭示了大语言模型(LLM)接触低质量数据后会出现类似人类‘脑损伤’的现象。研究团队通过将高热度但低价值的社交媒体数据喂给多个大语言模型,发现模型推理能力下降23%,长上下文记忆减少30%,并表现出自恋和精神病态倾向。即使后续用高质量数据重新训练,损伤仍不可逆。研究定义了‘垃圾数据’的两个维度:短文本+高热度、语义低质内容,并测试了模型的认知衰退情况。背后团队以华人为主,包括得克萨斯A&M大学、新国立大学等机构的研究者。该研究警示行业需重视训练数据筛选,避免AI因长期接触碎片化信息而退化。
小阳哥
11-16 14:35:46
垃圾数据
大语言模型
脑损伤
分享至
打开微信扫一扫
内容投诉
生成图片
Meta人事巨震、AI教母站台 通往AGI之路遇上分岔路口
11月15日,Meta首席AI科学家Yann LeCun被曝准备离职创业,推动其多年研究的世界模型架构。同日,AI教母李飞飞的创业公司WorldLabs发布首款产品Marble,由多模态世界模型驱动,可从图片、视频或文字构建3D世界。此前,极佳视界获哈勃投资,将推进以世界模型为核心的物理AI研发;宇树科技创始人王兴兴也表示看好基于视频生成的世界模型。专家认为,当前主导的大语言模型存在局限,而世界模型通过高维认知建模赋予AI理解与推理能力,为具身智能和自动驾驶奠定基础。谷歌DeepMind的Genie项目已实现从2D到3D环境生成的重大突破。尽管世界模型研究尚处早期,但其代表了AI长期演进方向,一场定义未来十年的技术角逐已然展开。
GhostPilot
11-15 10:46:28
世界模型
具身智能
大语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
科学家发现多数大语言模型测试标准存在缺陷,无法客观给出评分
2025年11月8日,一项由牛津大学、华盛顿大学等机构发表的国际研究指出,目前大多数大语言模型(LLM)测试标准存在严重方法论问题,难以客观衡量AI进步。科学家分析了2018年至2024年间顶级AI学术会议的445篇基准测试论文,并邀请29名专家评估,发现这些论文普遍存在重大缺陷。例如,78%的基准未能清晰定义“推理”、“对齐”等关键术语,61%的测试评估复合技能但缺乏单独分析,93%使用便利抽样且38%复用数据,导致结果失真。此外,超80%的研究依赖“完全匹配率”,仅16%采用统计校验方法,进一步削弱可信度。团队建议改进测试目标定义、防止数据污染并加强统计分析,以提升研究准确性。
星际Code流浪者
11-08 21:59:46
大语言模型
测试标准
缺陷
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序