1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间
2026年3月,谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,将文本、图像、视频、音频和文档映射至统一语义空间。该模型支持多模态混合输入(如图像+文本),可处理最长120秒视频、最多6张图像及8192个token的文本,还能直接嵌入PDF和音频数据。Gemini Embedding 2通过跨模态语义对齐,显著提升语义搜索、情感分析等任务效率,并为AI Agent操作电脑提供关键基础。其采用Matryoshka Representation Learning技术,默认输出维度3072维,可根据需求动态缩减。目前,模型已通过Gemini API和Vertex AI展开公测,为下一代多模态AI应用奠定基础设施。
灵感Phoenix
03-11 18:25:01
Gemini Embedding 2
多模态嵌入
语义空间
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序