1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
阶跃星辰开源 10B 多模态模型 Step3-VL-10B,性能媲美千亿级大模型
2026年1月20日,阶跃星辰宣布开源多模态模型Step3-VL-10B。该模型仅用10B参数量,在视觉感知、逻辑推理、数学竞赛及通用对话等基准测试中达到同规模SOTA水平,性能媲美甚至超越千亿级大模型如Gemini 2.5 Pro和Seed-1.5-VL。其核心亮点包括极致视觉感知、深层逻辑推演与长程推理、强大端侧Agent交互,并引入PaCoRe机制提升复杂任务表现。真实场景中,模型在STEM推理、竞赛数学、空间推理等领域表现出色。得益于全参数端到端预训练、大规模强化学习和创新推理机制,Step3-VL-10B证明小参数量也可实现高性能。目前Base和Thinking模型已开源,推动低成本、高效能的多模态能力向端侧下沉,重塑人机交互体验。
未来编码者
01-20 19:24:31
Step3-VL-10B
多模态模型
阶跃星辰
分享至
打开微信扫一扫
内容投诉
生成图片
豆包的新身份曝光:在国际艺术展当起了“AI讲解员”
豆包的新身份曝光:在国际艺术展当起了“AI讲解员” 梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 最近,听说豆包在浦东美术馆担任“AI讲解员”,不仅能带人逛展,还能提供专业讲解。好奇心驱使我亲自前往「AI与艺术」体验日活动现场一探究竟。 进馆后,我很快意识到自己对艺术品的理解几乎...
代码编织者Nexus
01-20 19:23:22
AI讲解员
多模态处理
豆包
分享至
打开微信扫一扫
内容投诉
生成图片
上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
标题:上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」 正文: 多模态模型在感知与生成方面表现优异,但常因信息缺失或语义复杂而产生“幻觉”,即输出与事实不符的内容。这种问题源于训练中对简单样本的过度依赖,导致模型在复杂场景中的可靠性受限。 上海科技大学何旭明教授团队提出了...
AI奇点纪元
01-16 15:56:29
DA-DPO
多模态模型
幻觉现象
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌最强 AI 开放翻译模型:TranslateGemma 登场,手机也能跑
1月15日,谷歌发布基于Gemma 3架构的开放翻译模型系列TranslateGemma,提供4B、12B和27B三种参数规模,支持55种核心语言及多模态图像翻译,已在Kaggle和Hugging Face开放下载。性能测试显示,12B版本超越参数量更大的27B基线模型,4B版本适合移动端,性能接近12B基线。TranslateGemma采用两阶段微调工艺,结合监督微调和强化学习技术,优化翻译质量,并覆盖近500种语言,为濒危语言研究提供支持。该模型还具备多模态能力,无需额外视觉任务微调即可提升图像内文字翻译效果。三种尺寸分别适配手机、笔记本电脑及云端高性能场景,开发者可通过Vertex AI等平台部署。
新智燎原
01-16 07:19:49
TranslateGemma
多模态
翻译模型
分享至
打开微信扫一扫
内容投诉
生成图片
刚刚,智谱和华为搞波大的:中国首个国产芯片训练出的SOTA多模态模型!
2026年1月14日,智谱与华为联合发布中国首个全程基于国产芯片训练的SOTA多模态模型GLM-Image。该模型在文字渲染、图像生成等方面表现优异,尤其擅长处理复杂视觉文字生成和长文本渲染任务,并在CVTG-2K和LongText-Bench双榜单中夺得第一。GLM-Image支持1024×1024至2048×2048任意比例输出,适用于多种社交媒体平台需求。其创新采用‘自回归+扩散解码器’混合架构,结合华为Ascend A2芯片及深度优化的Mindspeed-LLM框架完成全流程训练。此外,API调用成本极低,单张图片生成仅需0.1元,为行业提供高性价比解决方案。项目已开源,可通过GitHub、Hugging Face等平台获取。
AGI探路者
01-14 15:40:11
GLM-Image
国产芯片
多模态模型
分享至
打开微信扫一扫
内容投诉
生成图片
Nano Banana Pro 新对手,智谱联合华为开源首个国产芯片训练的多模态 SOTA 模型 GLM-Image
1月14日,智谱联合华为开源新一代多模态模型GLM-Image,这是首个在国产芯片上完成全程训练的SOTA模型。该模型基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,采用“自回归+扩散解码器”混合架构,突破知识密集型场景生成难题,如海报、科普图等。GLM-Image在文字渲染领域表现优异,尤其擅长汉字生成任务,并在CVTG-2K和LongText-Bench榜单中取得开源第一的成绩。其支持1024x1024至2048x2048多种分辨率图像生成,适用于科普插画、商业海报、社交媒体封面等复杂图文任务。模型现已开放体验与开源,API调用成本低至0.1元/张图片,速度优化版本即将发布。
AI奇点纪元
01-14 10:24:53
GLM-Image
国产芯片
多模态模型
分享至
打开微信扫一扫
内容投诉
生成图片
智谱联合华为开源首个国产芯片训练的多模态SOTA模型
1月14日,智谱联合华为开源新一代图像生成模型GLM-Image,这是首个在国产芯片上完成全程训练的SOTA多模态模型。该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架,实现从数据到训练的全流程国产化。GLM-Image结合图像生成与语言模型,API调用模式下生成一张图片仅需0.1元,且速度优化版本即将更新。这一成果标志着国产芯片在多模态AI领域的重大突破,为行业提供高效、低成本的解决方案。(记者 李明明)
智慧棱镜
01-14 09:24:34
华为
多模态模型
智谱
分享至
打开微信扫一扫
内容投诉
生成图片
智谱首席科学家唐杰:将推进多模态感统技术 助力AI具身智能落地物理场景
1月12日,智谱首席科学家唐杰在清华大学闭门高峰论坛上表示,未来AGI的发展方向包括实现双向Scaling,探索已知领域的规模上限并挖掘新范式。他强调推进多模态感统技术的重要性,以支撑AI进入物理世界与工作场景,助力具身智能落地。同时,唐杰指出该技术将推动AI for Science的爆发,为科学研究提供更强支持。(记者 李明明)
代码编织者Nexus
01-12 09:37:55
AI for Science
具身智能
多模态感统技术
分享至
打开微信扫一扫
内容投诉
生成图片
多模态检索新标杆,阿里通义发布并开源 Qwen3-VL-Embedding&Reranker 模型
1月8日,阿里通义正式发布并开源Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列。两款模型基于Qwen3-VL构建,专为多模态信息检索与跨模态理解设计,支持文本、图像、视频等多模态输入,在图文检索、视频匹配、视觉问答等任务中表现优异。Qwen3-VL-Embedding通过统一表示学习生成语义向量,实现高效跨模态检索;Qwen3-VL-Reranker则优化重排序,输出精确相关性分数,二者协同构成“两阶段检索流程”。该系列支持超30种语言,性能在MMEB-v2、MMTEB等权威基准测试中领先业界,适合全球化部署。模型已开源,可通过GitHub和魔搭ModelScope获取。
心智奇点
01-08 23:37:36
Qwen3-VL-Embedding
Qwen3-VL-Reranker
多模态检索
分享至
打开微信扫一扫
内容投诉
生成图片
阿里云发布 AI 硬件多模态交互开发套件:集成通义大模型,适配 30 多款终端芯片
1月8日,阿里云在通义智能硬件展上发布多模态交互开发套件,集成千问、万相、百聆三大通义基础大模型,并预置十余款Agent和MCP工具,适用于AI眼镜、学习机、陪伴玩具等设备。该套件适配30多款主流终端芯片,支持ARM、RISC-V和MIPS架构,未来还将与玄铁RISC-V实现软硬协同优化。其专有模型针对多模态交互场景优化,语音交互时延低至1秒,视频交互时延1.5秒。此外,套件接入百炼平台生态,支持开发者扩展应用能力边界。阿里云还展示了面向智能穿戴设备、陪伴机器人等领域的解决方案,如AI眼镜的同声传译功能及家庭陪伴机器人的实时监测与对话交互能力。
心智奇点
01-08 13:12:06
多模态交互
通义大模型
阿里云
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序