视觉 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GLM-5.3你来定！智谱唐杰全球征集意见，评论区清一色：视觉

近日，智谱AI核心人物唐杰在线征集下一版本GLM-5.3的研发意见，引发超40万浏览量，评论区对“视觉”能力的呼声最高。两周前开源的GLM-5.2虽在AI编程领域位列全球第二，但因缺乏视觉能力成为用户痛点。事实上，智谱已具备成熟的多模态技术，但唐杰此前认为多模态对提升AGI智能帮助有限，主张分开发展。然而，面对Kimi、Qwen及Gemini等竞品在多模态领域的强势布局，开发者需求日益迫切。在科学家追求模型智能上限与市场需求的多重拉扯下，即将推出的GLM-5.3能否顺应呼声补足视觉短板，已成为业界关注焦点。

原文链接

心智奇点

06-30 17:29:57

分享至

打开微信扫一扫

内容投诉

生成图片

Gemini负责人爆料！多模态统一token表示，视觉至关重要

2025年7月3日，Gemini模型负责人Ani Baddepudi在谷歌开发者频道揭秘多模态技术。Gemini从设计之初便定位为原生多模态，旨在实现通用人工智能（AGI），尤其强调视觉能力的重要性，因其在医学、金融等领域的广泛应用。通过将文本、图像、视频等统一为token表示，Gemini 2.5在视频理解方面取得显著突破，支持长达6小时的视频处理，并展现强大的泛化能力。团队正努力提升高帧率视频的理解性能，以满足更精细的时间分析需求。此外，Gemini提出“万物皆视觉”理念，目标是让模型感知物理世界并提供专家级辅助。未来方向包括增强交互性及以视觉形式传递信息，使AI更自然友好。

原文链接