综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
近日,智谱AI核心人物唐杰在线征集下一版本GLM-5.3的研发意见,引发超40万浏览量,评论区对“视觉”能力的呼声最高。两周前开源的GLM-5.2虽在AI编程领域位列全球第二,但因缺乏视觉能力成为用户痛点。事实上,智谱已具备成熟的多模态技术,但唐杰此前认为多模态对提升AGI智能帮助有限,主张分开发展。然而,面对Kimi、Qwen及Gemini等竞品在多模态领域的强势布局,开发者需求日益迫切。在科学家追求模型智能上限与市场需求的多重拉扯下,即将推出的GLM-5.3能否顺应呼声补足视觉短板,已成为业界关注焦点。
原文链接
2025年7月3日,Gemini模型负责人Ani Baddepudi在谷歌开发者频道揭秘多模态技术。Gemini从设计之初便定位为原生多模态,旨在实现通用人工智能(AGI),尤其强调视觉能力的重要性,因其在医学、金融等领域的广泛应用。通过将文本、图像、视频等统一为token表示,Gemini 2.5在视频理解方面取得显著突破,支持长达6小时的视频处理,并展现强大的泛化能力。团队正努力提升高帧率视频的理解性能,以满足更精细的时间分析需求。此外,Gemini提出“万物皆视觉”理念,目标是让模型感知物理世界并提供专家级辅助。未来方向包括增强交互性及以视觉形式传递信息,使AI更自然友好。
原文链接
加载更多
暂无内容