2026年3月,谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,将文本、图像、视频、音频和文档映射至统一语义空间。该模型支持多模态混合输入(如图像+文本),可处理最长120秒视频、最多6张图像及8192个token的文本,还能直接嵌入PDF和音频数据。Gemini Embedding 2通过跨模态语义对齐,显著提升语义搜索、情感分析等任务效率,并为AI Agent操作电脑提供关键基础。其采用Matryoshka Representation Learning技术,默认输出维度3072维,可根据需求动态缩减。目前,模型已通过Gemini API和Vertex AI展开公测,为下一代多模态AI应用奠定基础设施。
原文链接
本文链接:https://kx.umi6.com/article/33634.html
转载请注明文章出处
相关推荐
换一换
让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间
2026-03-11 18:25:01
中信证券:主动补库周期来临 特种布基本面将加速赶超
2026-03-10 09:01:12
甲骨文高管驳斥“SaaS末日论”:甲骨文不会被颠覆 反而是AI变革的引领者
2026-03-11 11:59:33
SEMI中国:全球半导体2026年料攀万亿美元
2026-03-11 16:17:28
AI开源智能体OpenClaw引爆科技圈 近10家上市公司公告或互动平台回应相关情况
2026-03-10 21:59:56
多个重点项目在珠海集中签约 总投资超100亿元
2026-03-10 19:53:30
北京市新增1款已完成备案生成式人工智能服务
2026-03-10 10:03:26
新凯来旗下启云方增资至5000万 增幅400%
2026-03-11 13:03:08
美的集团加码AI 拟未来三年投入超600亿元
2026-03-11 18:29:29
国防部:人工智能军事应用应坚持由人主导、防止失控
2026-03-11 15:12:01
小红书重拳出击!AI托管类账号危险了
2026-03-10 18:44:51
2026美的全屋智能战略发布 领航家电全面AI化
2026-03-10 17:42:44
甲骨文美股盘前涨超11% 营收指引超预期
2026-03-11 16:18:23
705 文章
500366 浏览
24小时热文
更多
-
2026-03-11 21:39:14 -
2026-03-11 20:36:13 -
2026-03-11 20:35:03