综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年3月,Nature报道了一项由arXiv创始人Paul Ginsparg牵头的研究,测试了13个大语言模型在‘水论文’中的表现。结果显示,Claude Opus 4.6最能守住底线,生成造假内容的比例仅1%,而马斯克旗下Grok-3超过30%的概率会生成可用于灌水的内容。研究通过五档恶意请求测试发现,多轮对话中多数模型易被诱导协助造假。专家警告,AI降低写作门槛导致投稿激增,审稿压力上升,可能形成低质量螺旋放大,危害科学可信度。目前,arXiv每天新增约200-300篇AI论文,平均每5到7分钟就有一篇新论文出现。
原文链接
2026年2月23日,关于AI‘诚恳认错,坚决不改’的现象引发讨论。大语言模型常因‘幻觉’问题生成看似合理但与事实不符的内容,例如编造虚假信息或错误回答。其根源在于训练数据中存在错误、偏见及过时信息,同时模型基于概率预测词汇组合,而非核查事实。开发者虽通过反馈优化,但彻底消除幻觉仍难实现,因其设计目标为通用对话,而非专业问答。若错误信息被重新纳入训练数据,可能形成恶性循环。专家提醒,用户应理性使用AI,视其为助手而非权威信源,对AI回答保持怀疑态度尤为重要。
原文链接
标题:清华刘知远团队论文:强化学习能否教会大模型新能力?| ICLR 2026
正文:
随着大语言模型的规模和预训练强度不断提升,强化学习在后训练阶段的角色正发生变化。尽管它仍是提升推理和多步决策表现的关键技术,但越来越多的实验表明,强化学习的性能提升往往难以等同于“新能力的形成”。尤其是在 p...
原文链接
标题:清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026
正文:
大语言模型的“上下文长度”已成为制约其能力的关键瓶颈。长文档理解、跨轮对话记忆等任务对序列长度的需求远超传统4k或8k,而Transformer架构的全注意力机制在序列增长时带来平方级计算与显存开销...
原文链接
标题:上交大智能计算研究院论文:大模型如何真正学会运筹建模
正文:
在大语言模型向专业领域应用迈进的过程中,运筹优化(OR)成为一个既具吸引力又充满挑战的方向。尽管运筹优化问题具备清晰的数学结构和可验证的结果,但其建模过程高度依赖变量定义、约束设计与目标函数的一致性,推理步骤强耦合,远非仅算出正...
原文链接
1月13日,南京农业大学发布国内首个农业开源大语言模型“司农”。该模型由南农主导研发,依托其学科优势,整合动物科学、农业经济管理、智慧农业等多领域数据,构建了涵盖近9000册书籍、24万余篇论文及近2万份政策标准的完整农业基础数据集。这一成果标志着我国在通用农业领域的智能化应用迈入新阶段,为农业科研与实践提供重要支持。(科技日报)
原文链接
标题:上海AI Lab胡侠:KV Cache压缩技术让2万美金GPU媲美20万美金性能
正文:
当前,大语言模型在处理超长上下文方面取得显著突破,部分模型如MiniMax-M1、Qwen2.5-1M已支持百万Token级别的输入。然而,提升上下文长度的竞赛仍在继续,因其在金融、法律、医疗等领域的...
原文链接
重塑虚实边界:智元机器人发布Genie Sim 3.0开源仿真平台
智元机器人在CES国际消费电子展上发布了首个大语言模型驱动的开源仿真平台——Genie Sim 3.0。基于NVIDIA Isaac Sim,该平台融合三维重建与视觉生成技术,打造高保真数字孪生环境,支持自然语言驱动的场景生成,并开...
原文链接
12月12日,第八届GAIR全球人工智能与机器人大会在深圳启幕,为期两天,由GAIR研究院与雷峰网主办。会上,之江实验室薛贵荣博士分享了关于大语言模型在科研中的局限性及科学基础模型的潜力。他指出,大语言模型受限于‘语言边界’,难以处理高维科学数据,在覆盖100多个学科的测试中,最优模型准确率仅25.4%。为突破这一瓶颈,之江实验室研发了021科学基础模型,可统一化科学数据、实现跨学科知识融合,并支持204种语言。薛贵荣还介绍了该模型的应用场景,包括基因疾病诊断、分子结构生成等,并呼吁更多科学家参与共创,推动AI+科学新范式的发展。
原文链接
12月2日,The Information报道,OpenAI正开发全新AI大语言模型,代号“大蒜”(Garlic),性能超越谷歌Gemini 3及Anthropic Opus 4.5。首席研究官Mark Chen介绍,该模型在编程与逻辑推理任务中表现优异,其核心突破在于优化预训练阶段,通过改进算法架构实现更小参数量模型的知识密度提升,显著降低训练成本与时间。OpenAI CEO萨姆・奥尔特曼已启动紧急响应机制,计划率先推出推理能力优化的新模型。“大蒜”预计2026年初以GPT-5.2或GPT-5.5版本发布,目前还需完成安全评估与领域精调。
原文链接
加载更多
暂无内容