Gemini Embedding 2 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

2026年3月，谷歌发布首个原生多模态嵌入模型Gemini Embedding 2，将文本、图像、视频、音频和文档映射至统一语义空间。该模型支持多模态混合输入（如图像+文本），可处理最长120秒视频、最多6张图像及8192个token的文本，还能直接嵌入PDF和音频数据。Gemini Embedding 2通过跨模态语义对齐，显著提升语义搜索、情感分析等任务效率，并为AI Agent操作电脑提供关键基础。其采用Matryoshka Representation Learning技术，默认输出维度3072维，可根据需求动态缩减。目前，模型已通过Gemini API和Vertex AI展开公测，为下一代多模态AI应用奠定基础设施。

原文链接