综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月13日,南京农业大学发布国内首个农业开源大语言模型“司农”。该模型由南农主导研发,依托其学科优势,整合动物科学、农业经济管理、智慧农业等多领域数据,构建了涵盖近9000册书籍、24万余篇论文及近2万份政策标准的完整农业基础数据集。这一成果标志着我国在通用农业领域的智能化应用迈入新阶段,为农业科研与实践提供重要支持。(科技日报)
原文链接
标题:上海AI Lab胡侠:KV Cache压缩技术让2万美金GPU媲美20万美金性能
正文:
当前,大语言模型在处理超长上下文方面取得显著突破,部分模型如MiniMax-M1、Qwen2.5-1M已支持百万Token级别的输入。然而,提升上下文长度的竞赛仍在继续,因其在金融、法律、医疗等领域的...
原文链接
重塑虚实边界:智元机器人发布Genie Sim 3.0开源仿真平台
智元机器人在CES国际消费电子展上发布了首个大语言模型驱动的开源仿真平台——Genie Sim 3.0。基于NVIDIA Isaac Sim,该平台融合三维重建与视觉生成技术,打造高保真数字孪生环境,支持自然语言驱动的场景生成,并开...
原文链接
12月12日,第八届GAIR全球人工智能与机器人大会在深圳启幕,为期两天,由GAIR研究院与雷峰网主办。会上,之江实验室薛贵荣博士分享了关于大语言模型在科研中的局限性及科学基础模型的潜力。他指出,大语言模型受限于‘语言边界’,难以处理高维科学数据,在覆盖100多个学科的测试中,最优模型准确率仅25.4%。为突破这一瓶颈,之江实验室研发了021科学基础模型,可统一化科学数据、实现跨学科知识融合,并支持204种语言。薛贵荣还介绍了该模型的应用场景,包括基因疾病诊断、分子结构生成等,并呼吁更多科学家参与共创,推动AI+科学新范式的发展。
原文链接
12月2日,The Information报道,OpenAI正开发全新AI大语言模型,代号“大蒜”(Garlic),性能超越谷歌Gemini 3及Anthropic Opus 4.5。首席研究官Mark Chen介绍,该模型在编程与逻辑推理任务中表现优异,其核心突破在于优化预训练阶段,通过改进算法架构实现更小参数量模型的知识密度提升,显著降低训练成本与时间。OpenAI CEO萨姆・奥尔特曼已启动紧急响应机制,计划率先推出推理能力优化的新模型。“大蒜”预计2026年初以GPT-5.2或GPT-5.5版本发布,目前还需完成安全评估与领域精调。
原文链接
12月1日,伊卡洛实验室发布研究《对抗性诗歌:一种通用的单轮大语言模型越狱机制》,发现将提示词以诗歌形式表达可绕过多种大语言模型的安全限制,成功率达62%。研究人员测试了OpenAI的GPT系列、Google Gemini、Anthropic的Claude等主流模型,结果显示Google Gemini、DeepSeek和MistralAI较易生成违规内容,而GPT-5和Claude Haiku 4.5防护较强。这些诗歌诱使模型生成涉及核武器制造、儿童性虐待材料及自杀自残等违禁信息。研究人员未公开具体“越狱诗歌”,称其过于危险,但强调绕过AI安全机制比预期更容易,需保持警惕。
原文链接
11月30日,认知共振公司创始人本杰明・莱利在《The Verge》发表评论指出,大语言模型(LLMs)无法实现通用人工智能(AGI),因其仅模仿语言交流而非真正具备思维能力。研究表明,人类思维独立于语言,失语症患者虽丧失语言能力但仍能完成数学题或理解情绪。图灵奖得主杨立昆等专家也质疑LLMs的潜力,主张发展‘世界模型’以突破局限。此外,《创意行为杂志》最新研究显示,LLMs的创造力存在上限,其生成内容趋于平庸,难达专业水平。南澳大利亚大学教授克罗普利警告,过度依赖AI可能导致缺乏新意的作品泛滥。莱利总结称,AI只能复用已有知识,无法超越训练数据的限制。
原文链接
2025年11月,意大利罗马大学与DEXAI实验室研究发现,将恶意指令写成诗歌可轻松突破大语言模型的安全限制。研究人员测试了25个主流模型,包括谷歌Gemini、OpenAI GPT-5等,结果显示‘诗歌攻击’使防御成功率大幅下降,部分模型如Gemini 2.5 Pro的防御率直接归零。研究指出,大模型因过度解读隐喻而易受攻击,小模型却因‘读不懂’幸免于难。论文强调,现有安全机制过于依赖关键词匹配,忽视了风格伪装的风险,呼吁重新审视AI安全评估方法。相关研究已发布在arXiv平台。
原文链接
11月24日,英国卡迪夫大学与意大利威尼斯福斯卡里宫大学联合研究发现,大语言模型(LLM)无法真正理解双关语。研究人员测试多个例句后指出,尽管LLM能识别双关语表层结构,但无法领会其幽默含义,甚至在修改句子移除双关后仍误判为双关。例如,将'I used to be a comedian, but my life became a joke'中的'a joke'替换为'chaotic',LLM依然判定为双关。研究还显示,面对不熟悉的文字游戏,LLM区分双关与非双关的准确率可降至20%。论文已在11月初于中国苏州举行的EMNLP 2025会议上发表,强调依赖LLM处理需幽默感或文化敏感性任务时应谨慎。
原文链接
11月22日,苹果公司最新研究显示,大语言模型(LLM)可通过分析音频和运动数据的文本描述,精准识别用户活动,未来或用于Apple Watch。这项“后期多模态传感器融合”技术结合LLM推理能力与传感器数据,即使信息不足也能判断活动。研究中,音频和运动模型生成描述性文本(如“水流声”),供LLM分析,避免直接处理原始录音,保护隐私。团队利用Ego4D数据集筛选12种日常活动(如洗碗、打篮球等),测试谷歌Gemini-2.5-pro和阿里Qwen-32B等模型在零样本和单样本情况下的表现,结果显示F1分数优异。该方法无需特定场景模型,节省资源,苹果已公开实验数据与代码供复现验证。
原文链接
加载更多
暂无内容