SOTA - AI优秘圈

实测拿215项SOTA的Qwen3.5-Omni：摄像头一开，AI给我现场讲论文、撸代码

2026年3月，Qwen3.5-Omni正式发布，具备‘全模态’原生能力，支持文本、图片、音频及音视频输入，可生成带时间戳的音视频脚本。该模型拿下215项SOTA，性能与Gemini 3.1 Pro相当，在音频理解、推理等领域全面超越后者。其新增vibe coding功能，可在视频通话中实时生成代码或前端原型，并支持语义打断、音色克隆等交互能力。实测显示，Qwen3.5-Omni能精准分析复杂视频、解读学术论文、完成网页设计，表现出色。模型采用Thinker-Talker架构，结合Hybrid-Attention MoE技术，实现高效多模态处理与自然语音输出。目前，用户可通过Qwen Chat或阿里云API体验该模型。

原文链接

智能维度跳跃

03-31 16:55:07

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek V4 Lite悄然更新：2000亿小参数性能逼近美国顶流

3月3日，DeepSeek V4 Lite悄然更新，参数规模仅2000亿的小模型性能逼近美国顶级大模型Sonnet 4.6。该模型自2月11日发布以来持续升级，2月27日的测试已显示显著进步，最新0302版在多项测试中表现优异，包括天气卡、游戏及前端功能等。尽管国产AI模型在对话聊天方面与闭源模型差距缩小，但在多模态、编程等领域仍落后于Anthropic、OpenAI等美国公司。DeepSeek的技术探索树立标杆，若完整版DeepSeek V4发布，或对美国AI领域造成重大冲击。

原文链接

数据炼金师

03-03 11:57:04

分享至

打开微信扫一扫

内容投诉

生成图片

姚顺宇谷歌首秀，Gemini新模型刷爆SOTA：人类仅剩7人捍卫碳基编程

2026年2月，谷歌发布Gemini 3 Deep Think重大升级，在Codeforces平台取得3455 Elo分数，排名世界第8，全球仅7人编程水平高于它。新模型在ARC-AGI-2基准测试中达到84.6%，远超此前最佳成绩68.8%；在人类最后考试（HLE）中刷新SOTA至48.4%。研发团队包括清华校友姚顺宇等华人科学家，姚顺宇去年从Anthropic加入谷歌，这是他在谷歌的首秀。Gemini 3 Deep Think还展现跨领域能力，如优化晶体生长工艺、发现半导体材料、辅助数学论文审阅等，推理成本降低82%。目前ARC Prize正开发ARC-AGI-3以应对新挑战。

原文链接

量子黑客

02-13 15:24:22

分享至

打开微信扫一扫

内容投诉

生成图片

全球SOTA编程模型MiniMax M2.5上线

2月12日，MiniMax正式发布旗舰编程模型M2.5，对标Claude Opus 4.6。该模型支持PC、App及跨端应用开发，在Excel高阶处理、PPT制作等Office生产力场景中表现行业领先。M2.5激活参数量仅10B，显存占用和推理能效比优势显著，支持100 TPS超高吞吐量，推理速度超越国际顶尖模型，为开发者提供高效解决方案。（记者黄心怡）

原文链接

电子诗篇

02-12 14:30:28

分享至

打开微信扫一扫

内容投诉

生成图片

那个用半成品刷爆SOTA的Qwen3超大杯推理版，现在正式上线

2026年1月，阿里千问正式发布Qwen3-Max-Thinking超大杯推理版模型，刷新全球SOTA表现。该模型在科学知识、数学推理、代码编程等19项基准测试中超越GPT-5.2-Thinking、Claude-Opus-4.5等顶级闭源模型。其参数规模超万亿，预训练数据量达36T Tokens，并通过自适应工具调用和测试时扩展技术显著提升推理性能与工具调用能力。实测显示，Qwen3-Max-Thinking可完成复杂代码任务（如手势识别小游戏）和数据分析（如内存涨价研报生成）。此外，中国开源AI模型下载量已超美国，千问系列衍生模型突破20万个，下载量超10亿次，成为全球开源标杆。目前，该模型已上线千问APP及API接口，全面接入淘宝、支付宝等阿里生态业务，为垂直领域应用提供更多可能性。

原文链接

Nebula

01-27 00:41:43

分享至

打开微信扫一扫

内容投诉

生成图片

智元发布第二代一体化具身大小脑系统 GenieReasoner，推理能力达 SOTA

正文：2026年1月1日，智元具身研究中心发布第二代一体化具身大小脑系统GenieReasoner，其推理能力达SOTA水平。新系统通过统一离散化预训练和流匹配技术，解决了VLA模型中语义推理与动作控制的模态对齐难题，并突破了传统离散Tokenizer的动作精度瓶颈。同时，研究中心开源了聚焦真机操控全流程的具身推理评测基准ERIQ，用于量化评估VLA模型的推理能力。实验表明，GenieReasoner在跨本体真机实验中展现了卓越的泛化性，显著提升端到端动作执行表现。未来，团队将从逻辑深度与执行精度两方面推进，致力于实现具身大小脑、世界模型与真机强化学习的闭环协同。

原文链接

数据炼金师

01-01 18:27:20

分享至

打开微信扫一扫

内容投诉

生成图片

AI Coding新王登场！MiniMax M2.1拿下多语言编程SOTA

2025年12月，MiniMax发布旗舰级Coding & Agent模型M2.1，以10B激活参数在Multi-SWE-bench榜单中取得49.4%的成绩，超越Claude Sonnet 4.5等竞品，拿下多语言编程SOTA。M2.1解决了以往模型在后端开发和底层逻辑上的“偏科”问题，显著提升Rust、Java、C++等语言能力，并强化移动端开发支持。通过引入Interleaved Thinking，模型兼顾代码执行与复合指令整合。实测显示，M2.1可高效完成H5小游戏开发、Python代码迁移及复杂后端任务如权限设计体系，生成1700行代码仅需两句话。此外，MiniMax构建开源测试基准VIBE，验证其在Web、Android、iOS等领域的能力。此次发布正值港交所聆讯通过之际，展现了MiniMax在AI研发与应用上的硬核实力。

原文链接

Nebula

12-24 10:26:59

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯混元 OCR 模型宣布开源：参数仅 1B，多项核心能力 SOTA

11月25日，腾讯混元宣布开源全新OCR模型HunyuanOCR，参数仅1B，多项核心能力达SOTA水平。该模型依托混元原生多模态架构，支持端到端推理，在复杂文档解析、文字检测与识别等任务中表现优异，如在OmniDocBench测评中获94.1分，超越谷歌Gemini3-pro；在OCRBench榜单上以860分领先3B以下参数模型。此外，HunyuanOCR支持14种小语种翻译，适用于票据字段抽取、视频字幕识别、拍照翻译等场景，并斩获ICDAR2025端到端文档翻译比赛小模型赛道冠军。模型已开源，可通过GitHub、HuggingFace等平台获取和体验。

原文链接

心智奇点

11-25 14:56:08

分享至

打开微信扫一扫

内容投诉

生成图片

美团发布高效推理模型 LongCat-Flash-Thinking，达到 SOTA 水平

9月22日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking，综合性能达全球开源模型最先进水平（SOTA）。该模型在逻辑、数学、代码及智能体任务中表现卓越，是国内首个结合“深度思考+工具调用”与“非形式化+形式化”推理能力的语言模型。通过创新架构如领域并行强化学习和异步弹性共卡系统，模型实现高效推理与稳定训练，在复杂任务中显著优化资源利用。多项权威评测显示，其在ARC-AGI、HMMT、LiveCodeBench等基准测试中刷新纪录，超越OpenAI o3、Gemini2.5 Pro等顶尖模型。项目已开源，地址包括Hugging Face与Github。

原文链接

阿达旻

09-22 15:58:35

分享至

打开微信扫一扫

内容投诉

生成图片

阶跃星辰发布端到端语音大模型 Step-Audio 2 mini，多个基准测试取得 SOTA 成绩

2025年9月1日，阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini，并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成，支持语音原生Tool Calling能力，可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio，在音频理解、语音识别、翻译和对话场景中表现突出。例如，在中英互译任务上，其CoVoST 2和CVSS评分分别达39.3和29.1；语音识别任务中，中文CER为3.19，英语WER为3.50，领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强，Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题，现已上线阶跃星辰开放平台并开源。

原文链接

代码编织者Nexus

09-01 15:21:09

分享至

打开微信扫一扫

内容投诉

生成图片