多模态模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阶跃星辰开源 10B 多模态模型 Step3-VL-10B，性能媲美千亿级大模型

2026年1月20日，阶跃星辰宣布开源多模态模型Step3-VL-10B。该模型仅用10B参数量，在视觉感知、逻辑推理、数学竞赛及通用对话等基准测试中达到同规模SOTA水平，性能媲美甚至超越千亿级大模型如Gemini 2.5 Pro和Seed-1.5-VL。其核心亮点包括极致视觉感知、深层逻辑推演与长程推理、强大端侧Agent交互，并引入PaCoRe机制提升复杂任务表现。真实场景中，模型在STEM推理、竞赛数学、空间推理等领域表现出色。得益于全参数端到端预训练、大规模强化学习和创新推理机制，Step3-VL-10B证明小参数量也可实现高性能。目前Base和Thinking模型已开源，推动低成本、高效能的多模态能力向端侧下沉，重塑人机交互体验。

原文链接

未来编码者

01-20 19:24:31

Step3-VL-10B

多模态模型

阶跃星辰

分享至

打开微信扫一扫

内容投诉

生成图片

上科大何旭明团队新作：克服简单样本偏置，让多模态模型学会「难题优先」

标题：上科大何旭明团队新作：克服简单样本偏置，让多模态模型学会「难题优先」正文：多模态模型在感知与生成方面表现优异，但常因信息缺失或语义复杂而产生“幻觉”，即输出与事实不符的内容。这种问题源于训练中对简单样本的过度依赖，导致模型在复杂场景中的可靠性受限。上海科技大学何旭明教授团队提出了...

原文链接

AI奇点纪元

01-16 15:56:29

DA-DPO

多模态模型

幻觉现象

分享至

打开微信扫一扫

内容投诉

生成图片

刚刚，智谱和华为搞波大的：中国首个国产芯片训练出的SOTA多模态模型！

2026年1月14日，智谱与华为联合发布中国首个全程基于国产芯片训练的SOTA多模态模型GLM-Image。该模型在文字渲染、图像生成等方面表现优异，尤其擅长处理复杂视觉文字生成和长文本渲染任务，并在CVTG-2K和LongText-Bench双榜单中夺得第一。GLM-Image支持1024×1024至2048×2048任意比例输出，适用于多种社交媒体平台需求。其创新采用‘自回归+扩散解码器’混合架构，结合华为Ascend A2芯片及深度优化的Mindspeed-LLM框架完成全流程训练。此外，API调用成本极低，单张图片生成仅需0.1元，为行业提供高性价比解决方案。项目已开源，可通过GitHub、Hugging Face等平台获取。

原文链接

AGI探路者

01-14 15:40:11

GLM-Image

国产芯片

多模态模型

分享至

打开微信扫一扫

内容投诉

生成图片

Nano Banana Pro 新对手，智谱联合华为开源首个国产芯片训练的多模态 SOTA 模型 GLM-Image

1月14日，智谱联合华为开源新一代多模态模型GLM-Image，这是首个在国产芯片上完成全程训练的SOTA模型。该模型基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架，采用“自回归+扩散解码器”混合架构，突破知识密集型场景生成难题，如海报、科普图等。GLM-Image在文字渲染领域表现优异，尤其擅长汉字生成任务，并在CVTG-2K和LongText-Bench榜单中取得开源第一的成绩。其支持1024x1024至2048x2048多种分辨率图像生成，适用于科普插画、商业海报、社交媒体封面等复杂图文任务。模型现已开放体验与开源，API调用成本低至0.1元/张图片，速度优化版本即将发布。

原文链接

AI奇点纪元

01-14 10:24:53

GLM-Image

国产芯片

多模态模型

分享至

打开微信扫一扫

内容投诉

生成图片

智谱联合华为开源首个国产芯片训练的多模态SOTA模型

1月14日，智谱联合华为开源新一代图像生成模型GLM-Image，这是首个在国产芯片上完成全程训练的SOTA多模态模型。该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架，实现从数据到训练的全流程国产化。GLM-Image结合图像生成与语言模型，API调用模式下生成一张图片仅需0.1元，且速度优化版本即将更新。这一成果标志着国产芯片在多模态AI领域的重大突破，为行业提供高效、低成本的解决方案。（记者李明明）

原文链接

智慧棱镜

01-14 09:24:34

华为

多模态模型

智谱

分享至

打开微信扫一扫

内容投诉

生成图片

Kimi最新多模态模型K2-VL提前现身

5日，据《科创板日报》独家报道，代号为Kiwi-do的神秘模型现身LMArena，并通过VPCT基准测试。多位开发者分析称，该模型极可能是月之暗面此前预告的K2-VL多模态新模型，预示其发布临近。此前消息称，月之暗面计划于今年1月推出型号为K2.1或K2.5的新模型，这将是继Kimi K2和Kimi K2 Thinking后的重要更新。开发者认为，新模型通过VPCT测试可能改变多模态Agent格局。（记者李明明）

原文链接

智慧棱镜

01-05 15:13:56

Kimi

VPCT基准测试

多模态模型

分享至

打开微信扫一扫

内容投诉

生成图片

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

正文：2026年1月5日，华为开源全新多模态模型openPangu-VL-7B，专为端侧部署与个人开发者设计。该模型具备出色的视觉定位和OCR能力，在通用视觉问答、文档理解、短视频解析等任务中表现优异。其基于昇腾硬件优化，推理时延仅160毫秒，训练阶段MFU达42.5%，并在3T+tokens的无突刺长稳训练中展现高性能。核心技术包括适配昇腾的视觉编码器、样本均衡损失设计以及带填充的定位数据格式，显著提升效率与精度。模型已开源，为昇腾生态注入新动力。

原文链接

AI创意引擎

01-05 14:06:30

华为开源

多模态模型

视觉定位

分享至

打开微信扫一扫

内容投诉

生成图片

行业首个：商汤发布并开源 NEO 原生多模态模型架构，实现视觉、语言深层统一

12月2日，商汤科技联合南洋理工大学S-Lab发布并开源全新多模态模型架构NEO，称其为“行业首个实现深层次融合的原生多模态架构”。NEO通过注意力机制、位置编码和语义映射三大创新，打破传统模块化设计局限，统一处理视觉与语言能力。相比主流模型，NEO仅需1/10数据量（3.9亿图像文本示例），即可在视觉理解任务中追平顶级模型，并在多项公开评测中表现优异。此外，NEO支持边缘部署，在0.6B-8B参数区间性价比突出。商汤已开源2B与9B两种规格模型，供开发者使用。

原文链接

虚拟微光

12-02 23:39:14

NEO架构

商汤科技

多模态模型

分享至

打开微信扫一扫

内容投诉

生成图片

实测Gemini 3 Pro - ，未来已来？

2025年11月18日，Google正式发布Gemini 3 Pro，这款备受期待的大模型在多个领域展现惊人实力。在主流竞技场排行榜中几乎全面领先，尤其在Humanity’s Last Exam、MathArena Apex等复杂评测中表现突出，超越GPT-5.1和Claude Sonnet 4.5。其前端代码能力尤为出色，能快速生成高质量的网页项目，如体素艺术场景、网页音乐播放器及类似Windows操作系统的Web OS。Gemini 3 Pro还具备强大的多模态处理能力，在高分辨率界面定位任务中达到72.7%的准确率。目前，用户可通过AI Studio或Google Gemini网页版体验该模型。此次发布标志着AI技术迈入新阶段，未来已悄然到来。

原文链接