综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年1月20日,阶跃星辰宣布开源多模态模型Step3-VL-10B。该模型仅用10B参数量,在视觉感知、逻辑推理、数学竞赛及通用对话等基准测试中达到同规模SOTA水平,性能媲美甚至超越千亿级大模型如Gemini 2.5 Pro和Seed-1.5-VL。其核心亮点包括极致视觉感知、深层逻辑推演与长程推理、强大端侧Agent交互,并引入PaCoRe机制提升复杂任务表现。真实场景中,模型在STEM推理、竞赛数学、空间推理等领域表现出色。得益于全参数端到端预训练、大规模强化学习和创新推理机制,Step3-VL-10B证明小参数量也可实现高性能。目前Base和Thinking模型已开源,推动低成本、高效能的多模态能力向端侧下沉,重塑人机交互体验。
原文链接
标题:上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
正文:
多模态模型在感知与生成方面表现优异,但常因信息缺失或语义复杂而产生“幻觉”,即输出与事实不符的内容。这种问题源于训练中对简单样本的过度依赖,导致模型在复杂场景中的可靠性受限。
上海科技大学何旭明教授团队提出了...
原文链接
2026年1月14日,智谱与华为联合发布中国首个全程基于国产芯片训练的SOTA多模态模型GLM-Image。该模型在文字渲染、图像生成等方面表现优异,尤其擅长处理复杂视觉文字生成和长文本渲染任务,并在CVTG-2K和LongText-Bench双榜单中夺得第一。GLM-Image支持1024×1024至2048×2048任意比例输出,适用于多种社交媒体平台需求。其创新采用‘自回归+扩散解码器’混合架构,结合华为Ascend A2芯片及深度优化的Mindspeed-LLM框架完成全流程训练。此外,API调用成本极低,单张图片生成仅需0.1元,为行业提供高性价比解决方案。项目已开源,可通过GitHub、Hugging Face等平台获取。
原文链接
1月14日,智谱联合华为开源新一代多模态模型GLM-Image,这是首个在国产芯片上完成全程训练的SOTA模型。该模型基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,采用“自回归+扩散解码器”混合架构,突破知识密集型场景生成难题,如海报、科普图等。GLM-Image在文字渲染领域表现优异,尤其擅长汉字生成任务,并在CVTG-2K和LongText-Bench榜单中取得开源第一的成绩。其支持1024x1024至2048x2048多种分辨率图像生成,适用于科普插画、商业海报、社交媒体封面等复杂图文任务。模型现已开放体验与开源,API调用成本低至0.1元/张图片,速度优化版本即将发布。
原文链接
1月14日,智谱联合华为开源新一代图像生成模型GLM-Image,这是首个在国产芯片上完成全程训练的SOTA多模态模型。该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架,实现从数据到训练的全流程国产化。GLM-Image结合图像生成与语言模型,API调用模式下生成一张图片仅需0.1元,且速度优化版本即将更新。这一成果标志着国产芯片在多模态AI领域的重大突破,为行业提供高效、低成本的解决方案。(记者 李明明)
原文链接
5日,据《科创板日报》独家报道,代号为Kiwi-do的神秘模型现身LMArena,并通过VPCT基准测试。多位开发者分析称,该模型极可能是月之暗面此前预告的K2-VL多模态新模型,预示其发布临近。此前消息称,月之暗面计划于今年1月推出型号为K2.1或K2.5的新模型,这将是继Kimi K2和Kimi K2 Thinking后的重要更新。开发者认为,新模型通过VPCT测试可能改变多模态Agent格局。(记者 李明明)
原文链接
正文:2026年1月5日,华为开源全新多模态模型openPangu-VL-7B,专为端侧部署与个人开发者设计。该模型具备出色的视觉定位和OCR能力,在通用视觉问答、文档理解、短视频解析等任务中表现优异。其基于昇腾硬件优化,推理时延仅160毫秒,训练阶段MFU达42.5%,并在3T+tokens的无突刺长稳训练中展现高性能。核心技术包括适配昇腾的视觉编码器、样本均衡损失设计以及带填充的定位数据格式,显著提升效率与精度。模型已开源,为昇腾生态注入新动力。
原文链接
12月2日,商汤科技联合南洋理工大学S-Lab发布并开源全新多模态模型架构NEO,称其为“行业首个实现深层次融合的原生多模态架构”。NEO通过注意力机制、位置编码和语义映射三大创新,打破传统模块化设计局限,统一处理视觉与语言能力。相比主流模型,NEO仅需1/10数据量(3.9亿图像文本示例),即可在视觉理解任务中追平顶级模型,并在多项公开评测中表现优异。此外,NEO支持边缘部署,在0.6B-8B参数区间性价比突出。商汤已开源2B与9B两种规格模型,供开发者使用。
原文链接
2025年11月18日,Google正式发布Gemini 3 Pro,这款备受期待的大模型在多个领域展现惊人实力。在主流竞技场排行榜中几乎全面领先,尤其在Humanity’s Last Exam、MathArena Apex等复杂评测中表现突出,超越GPT-5.1和Claude Sonnet 4.5。其前端代码能力尤为出色,能快速生成高质量的网页项目,如体素艺术场景、网页音乐播放器及类似Windows操作系统的Web OS。Gemini 3 Pro还具备强大的多模态处理能力,在高分辨率界面定位任务中达到72.7%的准确率。目前,用户可通过AI Studio或Google Gemini网页版体验该模型。此次发布标志着AI技术迈入新阶段,未来已悄然到来。
原文链接
全新创作平台SkyReels来了!一张画布+对话框搞定AI视频创作
梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI
最近,一只神态抽象的企鹅在网上爆火。网友们纷纷用它整活儿,我也忍不住用AI将它“魔改”成了一位Rapper:小墨镜一戴,大金链子一挂,配上热曲,这只鹅仿佛能直接登上《中国有嘻...
原文链接
加载更多
暂无内容