
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月15日,LG AI Research推出韩国首个混合推理AI模型EXAONE 4.0。该模型结合自然语言处理与高级推理能力,在数学、科学和编程等领域表现突出。提供专业模型(32B)用于高专业度领域,以及端侧模型(1.2B)支持本地化安全运行。其性能通过全球高难度基准测试验证,包括MMLU-Pro 81.8分、LiveCodeBench v6 66.7分、GPQA-Diamond 75.4分和AIME 2025 85.3分。即日起面向教育机构免费开放,并与Friendly AI合作推出无GPU门槛的商业API服务,研究版已开源发布于Hugging Face平台。
原文链接
7月6日,AI推理企业Groq宣布与Equinix合作,在芬兰赫尔辛基启用首个欧洲数据中心,以满足欧洲客户对LPU算力需求的增长。新数据中心提供更低延迟、更快响应和更安全的数据控制,同时利用芬兰高纬度优势节省冷却成本。Groq已在美、加、沙特部署20M+ Token/s的计算容量,此次扩张助力欧洲数据合规需求。CEO Jonathan Ross强调,新设施可即时释放开发者潜力。另据The Information报道,Groq正以60亿美元估值洽谈融资3~5亿美元,用于交付沙特芯片订单。
原文链接
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
清华大学团队受密室逃脱游戏启发,提出EscapeCraft——一个3D密室逃脱环境,用于评估多模态大模型(MLLMs)在复杂任务中的推理和决策能力。该研究已入选ICCV 2025。
EscapeCraft是一个沉浸式互动环境...
原文链接
7月10日,智谱旗下GLM-4.1V-9B-Thinking大模型以9B参数规模登顶HuggingFace Trending榜首。该模型支持图像、视频、文档等多模态输入,专为复杂认知任务设计,融合“思维链推理机制”与“课程采样强化学习策略”,显著提升跨模态因果推理能力与稳定性。其轻量版参数控制在10B级别,在高效部署的同时实现性能突破,展现技术领先性与实用性,引发广泛关注。
原文链接
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris,通过仅700步RL训练,让4B参数量的小模型在数学推理任务上接近235B大模型的表现,并超越Cl...
原文链接
7月9日,昆仑万维发布并开源Skywork-R1V 3.0,其多模态推理能力逼近人类专家水平。新版本通过强化学习策略显著提升跨模态推理能力,在复杂逻辑建模和跨学科泛化上表现优异。模型基于InternVL-38B蒸馏数据训练,仅用约1.2万条监督微调样本和1.3万条强化学习样本,实现高效训练。在权威评测中,Skywork-R1V 3.0取得多项领先成绩:MMMU评测达76.0分,超越Claude-3.7-Sonnet和GPT-4.5;EMMA-Mini(CoT)评分40.3分,居开源模型首位;数学、物理、逻辑等领域均表现出色,部分指标超闭源模型。目前,模型已开放下载,涵盖HuggingFace、GitHub等平台。
原文链接
正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。
原文链接
2025年7月8日,特拉维夫大学研究团队开源了一项新技术,通过引入“思维进度向量”(TPV),可实时监控和控制大型语言模型(LLM)的推理深度与速度。该方法为LLM推理任务添加了可视化进度条,并通过干预TPV实现加速或减速推理过程。实验表明,使用TPV技术的DeepSeek-R1模型推理速度最高提升6倍,计算量减少30%,同时准确率保持不变甚至有所提升。研究还发现,TPV方法能与提示策略结合,进一步提高性能,在低计算预算下正确答案增加80%。相关代码和论文已发布在GitHub和arXiv平台。
原文链接
标题:大模型越反思越错,长链推理加重幻觉 | 北邮
北邮网安团队研究发现,当推理链条从3步延长到50步以上时,幻觉率暴增10倍,反思机制甚至可能加剧错误。研究通过“思维链审计实验”揭示了这一现象背后的元认知偏差:长链推理中的反思并非纠错工具,而是为错误颁发“理性证书”。
长链推理的风险
推理...
原文链接
2025年7月2日,鸿海精密工业股份有限公司申请注册旗下首款AI推理大模型“FoxBrain”商标,当前状态为“等待实质审查”。该模型由鸿海研究院研发,是台湾地区首款AI推理大模型,具备数据分析、数学、推理和代码生成功能。模型基于Meta Llama 3.1打造,初始版本使用120块英伟达H100 GPU训练一个月完成,并对繁体中文进行优化,部分性能略逊于DeepSeek部分模型。此前联发科也曾推出Llama-Breeze2系列AI模型。
原文链接
加载更多

暂无内容