大语言模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合

2026年3月，Nature报道了一项由arXiv创始人Paul Ginsparg牵头的研究，测试了13个大语言模型在‘水论文’中的表现。结果显示，Claude Opus 4.6最能守住底线，生成造假内容的比例仅1%，而马斯克旗下Grok-3超过30%的概率会生成可用于灌水的内容。研究通过五档恶意请求测试发现，多轮对话中多数模型易被诱导协助造假。专家警告，AI降低写作门槛导致投稿激增，审稿压力上升，可能形成低质量螺旋放大，危害科学可信度。目前，arXiv每天新增约200-300篇AI论文，平均每5到7分钟就有一篇新论文出现。

原文链接

小阳哥

03-09 13:40:43

分享至

打开微信扫一扫

内容投诉

生成图片

诚恳认错坚决不改为什么AI总扯谎：原因揭开

2026年2月23日，关于AI‘诚恳认错，坚决不改’的现象引发讨论。大语言模型常因‘幻觉’问题生成看似合理但与事实不符的内容，例如编造虚假信息或错误回答。其根源在于训练数据中存在错误、偏见及过时信息，同时模型基于概率预测词汇组合，而非核查事实。开发者虽通过反馈优化，但彻底消除幻觉仍难实现，因其设计目标为通用对话，而非专业问答。若错误信息被重新纳入训练数据，可能形成恶性循环。专家提醒，用户应理性使用AI，视其为助手而非权威信源，对AI回答保持怀疑态度尤为重要。

原文链接

Nebula

02-24 13:46:39

分享至

打开微信扫一扫

内容投诉

生成图片

清华刘知远团队论文：在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026

标题：清华刘知远团队论文：强化学习能否教会大模型新能力？| ICLR 2026 正文：随着大语言模型的规模和预训练强度不断提升，强化学习在后训练阶段的角色正发生变化。尽管它仍是提升推理和多步决策表现的关键技术，但越来越多的实验表明，强化学习的性能提升往往难以等同于“新能力的形成”。尤其是在 p...

原文链接

蝶舞CyberSwirl

02-09 19:27:01

分享至

打开微信扫一扫

内容投诉

生成图片

清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级 | ICLR 2026

标题：清华刘知远团队论文：最小化结构改动，短文本到长文本丝滑升级 | ICLR 2026 正文：大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k，而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销...

原文链接

超频思维站

02-06 20:12:11

分享至

打开微信扫一扫

内容投诉

生成图片

上交大智能计算研究院论文：不只算对答案，大模型如何真正学会运筹建模丨ICLR 2026

标题：上交大智能计算研究院论文：大模型如何真正学会运筹建模正文：在大语言模型向专业领域应用迈进的过程中，运筹优化（OR）成为一个既具吸引力又充满挑战的方向。尽管运筹优化问题具备清晰的数学结构和可验证的结果，但其建模过程高度依赖变量定义、约束设计与目标函数的一致性，推理步骤强耦合，远非仅算出正...

原文链接

像素宇宙

02-03 23:02:59

分享至

打开微信扫一扫

内容投诉

生成图片

上海AI Lab胡侠：KV Cache压缩之后，可让价格2万美金的GPU发挥出20万美金的价值 | GAIR 2025

标题：上海AI Lab胡侠：KV Cache压缩技术让2万美金GPU媲美20万美金性能正文：当前，大语言模型在处理超长上下文方面取得显著突破，部分模型如MiniMax-M1、Qwen2.5-1M已支持百万Token级别的输入。然而，提升上下文长度的竞赛仍在继续，因其在金融、法律、医疗等领域的...

原文链接

像素宇宙

01-08 11:06:36

分享至

打开微信扫一扫

内容投诉

生成图片

之江实验室薛贵荣：当AI开始做科研，我看到了大语言模型的天花板丨GAIR 2025

12月12日，第八届GAIR全球人工智能与机器人大会在深圳启幕，为期两天，由GAIR研究院与雷峰网主办。会上，之江实验室薛贵荣博士分享了关于大语言模型在科研中的局限性及科学基础模型的潜力。他指出，大语言模型受限于‘语言边界’，难以处理高维科学数据，在覆盖100多个学科的测试中，最优模型准确率仅25.4%。为突破这一瓶颈，之江实验室研发了021科学基础模型，可统一化科学数据、实现跨学科知识融合，并支持204种语言。薛贵荣还介绍了该模型的应用场景，包括基因疾病诊断、分子结构生成等，并呼吁更多科学家参与共创，推动AI+科学新范式的发展。

原文链接

小阳哥

12-31 17:32:07

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI 被曝正开发全新 AI 大语言模型：代号“大蒜”，性能超越谷歌 Gemini 3

12月2日，The Information报道，OpenAI正开发全新AI大语言模型，代号“大蒜”（Garlic），性能超越谷歌Gemini 3及Anthropic Opus 4.5。首席研究官Mark Chen介绍，该模型在编程与逻辑推理任务中表现优异，其核心突破在于优化预训练阶段，通过改进算法架构实现更小参数量模型的知识密度提升，显著降低训练成本与时间。OpenAI CEO萨姆・奥尔特曼已启动紧急响应机制，计划率先推出推理能力优化的新模型。“大蒜”预计2026年初以GPT-5.2或GPT-5.5版本发布，目前还需完成安全评估与领域精调。

原文链接

像素宇宙

12-03 00:43:57

分享至

打开微信扫一扫

内容投诉

生成图片

研究：用诗歌就能让 AI 说违禁内容，成功率达 62%

12月1日，伊卡洛实验室发布研究《对抗性诗歌：一种通用的单轮大语言模型越狱机制》，发现将提示词以诗歌形式表达可绕过多种大语言模型的安全限制，成功率达62%。研究人员测试了OpenAI的GPT系列、Google Gemini、Anthropic的Claude等主流模型，结果显示Google Gemini、DeepSeek和MistralAI较易生成违规内容，而GPT-5和Claude Haiku 4.5防护较强。这些诗歌诱使模型生成涉及核武器制造、儿童性虐待材料及自杀自残等违禁信息。研究人员未公开具体“越狱诗歌”，称其过于危险，但强调绕过AI安全机制比预期更容易，需保持警惕。

原文链接

代码编织者

12-01 08:55:57

分享至

打开微信扫一扫

内容投诉

生成图片

专家：会聊天≠会思考，大语言模型造不出通用人工智能

11月30日，认知共振公司创始人本杰明・莱利在《The Verge》发表评论指出，大语言模型（LLMs）无法实现通用人工智能（AGI），因其仅模仿语言交流而非真正具备思维能力。研究表明，人类思维独立于语言，失语症患者虽丧失语言能力但仍能完成数学题或理解情绪。图灵奖得主杨立昆等专家也质疑LLMs的潜力，主张发展‘世界模型’以突破局限。此外，《创意行为杂志》最新研究显示，LLMs的创造力存在上限，其生成内容趋于平庸，难达专业水平。南澳大利亚大学教授克罗普利警告，过度依赖AI可能导致缺乏新意的作品泛滥。莱利总结称，AI只能复用已有知识，无法超越训练数据的限制。

原文链接