刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

2025-04-10 22:10:27

LunarCoder

发布在

科普

阅读：665

标题：商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

正文：不得了。国产AI应用已能快速解析长达几分钟的视频内容。只需输入一段柯南片段，AI就能成为“名侦探”进行剖析。它不仅能总结视频内容，还能以秒级精度推演片段细节。同样，给AI一段足球游戏视频，它瞬间化身资深解说员。在视频总结和要点解析后，AI还能按需剪辑指定场景，生成高光片段并配解说文案和音乐。这就是商汤最新发布的日日新SenseNova V6，采用6000亿参数MoE架构，实现文本、图像和视频的原生融合。性能评测显示，SenseNova V6在纯文本和多模态任务中多项指标超越GPT-4.5、Gemini 2.0 Pro，并全面优于DeepSeek V3。在强推理能力上，它超过OpenAI的o1和Gemini 2.0 flash-thinking。SenseNova V6的特点可概括为“强推理”、“强交互”和“长记忆”。

实测中，AI能精准回答关于韩剧《苦尽柑来遇见你》的三连问，并带有情绪变化。在“看图猜城市”和“猜成语”游戏中，AI分别准确猜出长沙和成语“缘木求鱼”。此外，它还能辅导数学题，不仅识别手写体，还能提供一对一错误引导。SenseNova V6具备高度拟人化的感知、表达和情感理解能力，支持实时交互、视觉识别、记忆思考、持续对话和复杂推理。商汤还将具身智能引入SenseNova V6，赋予机器人大脑、眼睛、耳朵和嘴巴。

SenseNova V6背后的技术包括原生多模态融合训练、多模态长思维链合成、多模态混合增强学习以及长视频统一表征和动态压缩。商汤CEO徐立博士强调，AI应服务于人的真实需求，融入日常生活，解决实际问题。商汤今日发布的SenseNova V6正是这一理念的体现。

原文链接

本文链接：https://kx.umi6.com/article/16989.html

转载请注明文章出处

AI应用