综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2026年1月1日,智元具身研究中心发布第二代一体化具身大小脑系统GenieReasoner,其推理能力达SOTA水平。新系统通过统一离散化预训练和流匹配技术,解决了VLA模型中语义推理与动作控制的模态对齐难题,并突破了传统离散Tokenizer的动作精度瓶颈。同时,研究中心开源了聚焦真机操控全流程的具身推理评测基准ERIQ,用于量化评估VLA模型的推理能力。实验表明,GenieReasoner在跨本体真机实验中展现了卓越的泛化性,显著提升端到端动作执行表现。未来,团队将从逻辑深度与执行精度两方面推进,致力于实现具身大小脑、世界模型与真机强化学习的闭环协同。
原文链接
2025年12月,MiniMax发布旗舰级Coding & Agent模型M2.1,以10B激活参数在Multi-SWE-bench榜单中取得49.4%的成绩,超越Claude Sonnet 4.5等竞品,拿下多语言编程SOTA。M2.1解决了以往模型在后端开发和底层逻辑上的“偏科”问题,显著提升Rust、Java、C++等语言能力,并强化移动端开发支持。通过引入Interleaved Thinking,模型兼顾代码执行与复合指令整合。实测显示,M2.1可高效完成H5小游戏开发、Python代码迁移及复杂后端任务如权限设计体系,生成1700行代码仅需两句话。此外,MiniMax构建开源测试基准VIBE,验证其在Web、Android、iOS等领域的能力。此次发布正值港交所聆讯通过之际,展现了MiniMax在AI研发与应用上的硬核实力。
原文链接
2025年12月,中国智谱AI发布新一代旗舰模型GLM-4.7,主打编程能力并上线即开源。该模型在AIME 25、HLE等基准中超越GPT-5.1,SWE-Bench得分达73.8%,创开源新高。GLM-4.7在编码、复杂推理和工具使用等多个维度显著提升,支持“先思考、再行动”模式,并引入交错式思考、保留式思考及轮级思考技术,优化长程任务表现。此外,模型在前端生成、PPT设计、3D资产生成等方面也有显著改进。官网已开放Chatbot与API体验,最低20元/月即可畅享服务。此次更新被视为智谱冲刺港交所IPO前的重要技术证明。
原文链接
11月25日,腾讯混元宣布开源全新OCR模型HunyuanOCR,参数仅1B,多项核心能力达SOTA水平。该模型依托混元原生多模态架构,支持端到端推理,在复杂文档解析、文字检测与识别等任务中表现优异,如在OmniDocBench测评中获94.1分,超越谷歌Gemini3-pro;在OCRBench榜单上以860分领先3B以下参数模型。此外,HunyuanOCR支持14种小语种翻译,适用于票据字段抽取、视频字幕识别、拍照翻译等场景,并斩获ICDAR2025端到端文档翻译比赛小模型赛道冠军。模型已开源,可通过GitHub、HuggingFace等平台获取和体验。
原文链接
9月22日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking,综合性能达全球开源模型最先进水平(SOTA)。该模型在逻辑、数学、代码及智能体任务中表现卓越,是国内首个结合“深度思考+工具调用”与“非形式化+形式化”推理能力的语言模型。通过创新架构如领域并行强化学习和异步弹性共卡系统,模型实现高效推理与稳定训练,在复杂任务中显著优化资源利用。多项权威评测显示,其在ARC-AGI、HMMT、LiveCodeBench等基准测试中刷新纪录,超越OpenAI o3、Gemini2.5 Pro等顶尖模型。项目已开源,地址包括Hugging Face与Github。
原文链接
谷歌最新研究显示,只要科学任务可评分,AI就能通过大模型+树搜索实现超越人类专家的SOTA结果。该研究开发了一种自动创建实证软件的AI系统,适用于生物信息学、流行病学、地理空间分析等领域。例如,在单细胞数据分析中,系统发现了40种新方法,性能超越人类专家;在地理空间分析中,其方法mIoU指标突破0.80。系统结合代码变异与复杂研究思路,整合高被引论文、教科书等资源优化算法。论文在社交平台引发热议,获2.6K赞,网友称‘任何可量化的东西都将被AI征服’,但也有人质疑将科研权限交给AI是否合适。研究人员使用简单提示词即可生成高质量算法,表明清晰表达需求比复杂指令更重要。
原文链接
2025年9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成,支持语音原生Tool Calling能力,可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio,在音频理解、语音识别、翻译和对话场景中表现突出。例如,在中英互译任务上,其CoVoST 2和CVSS评分分别达39.3和29.1;语音识别任务中,中文CER为3.19,英语WER为3.50,领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强,Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题,现已上线阶跃星辰开放平台并开源。
原文链接
2025年8月6日,Anthropic正式发布Claude Opus 4.1,该版本在编程性能上再次突破,超越前代及竞品,拿下SOTA成绩。新模型在Agent任务和推理能力方面也显著提升,定价保持不变。实测显示其开发小游戏等任务表现稳定。官方透露未来几周将推出更大规模升级。客户反馈积极,GitHub和Rakuten Group均认可其改进,特别是在代码修复和跨文件重构上的表现。Anthropic还通过客户背书暗秀合作关系,与OpenAI形成鲜明对比。此外,Opus 4.1的System Card同步发布,明确其核心调整未改变模型尺寸或训练方法。无害回复率提升至99.06%。目前,Opus 4.1已向所有付费用户开放,并支持多种平台使用。
原文链接
7月28日,智谱发布旗舰模型GLM-4.5并开源,这是首款SOTA级原生智能体大模型,综合评测位居国产第一,性能媲美全球顶级模型。新模型参数效率翻倍,API价格仅为Claude的1/10,推理速度超100tokens/秒。其创新性地将推理、代码、Agent等多能力原生融合,目前已上线智谱清言和z.ai平台,开放免费体验。
原文链接
2025年7月,阿里通义千问开源Qwen3系列完成三连发,接连推出Qwen3-Coder、Qwen3-235B-A22B-Instruct-2507和Qwen3-235B-A22B-Thinking-2507模型,分别在编程、基础模型和推理领域刷新全球开源SOTA记录。其中,最新推理模型在逻辑推理、数学及编程任务中表现突出,超越闭源模型如Gemini-2.5 Pro和o4-mini。实测显示其在复杂问题解决上具备显著优势。此轮开源引发国际热议,HuggingFace等业内专家盛赞‘这是开源的胜利’。阿里已开源超300款模型,衍生模型突破14万个,成为全球第一开源家族,并计划三年内投入3800亿元升级AI基础设施。中国开源力量正引领全球前沿发展。
原文链接
加载更多
暂无内容