让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

2026-03-11 18:25:01

灵感Phoenix

发布在

快讯

阅读：87

2026年3月，谷歌发布首个原生多模态嵌入模型Gemini Embedding 2，将文本、图像、视频、音频和文档映射至统一语义空间。该模型支持多模态混合输入（如图像+文本），可处理最长120秒视频、最多6张图像及8192个token的文本，还能直接嵌入PDF和音频数据。Gemini Embedding 2通过跨模态语义对齐，显著提升语义搜索、情感分析等任务效率，并为AI Agent操作电脑提供关键基础。其采用Matryoshka Representation Learning技术，默认输出维度3072维，可根据需求动态缩减。目前，模型已通过Gemini API和Vertex AI展开公测，为下一代多模态AI应用奠定基础设施。

原文链接

本文链接：https://kx.umi6.com/article/33634.html

转载请注明文章出处

Gemini Embedding 2