1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

无需任何配对数据,就能实现文本嵌入的模型空间转换?康奈尔大学给出了Plus版答案——vec2vec,首个无监督文本嵌入的跨向量空间转换方法。

vec2vec利用共享潜在空间,不仅保留嵌入结构和底层输入语义,还能反推提取嵌入信息。其在目标嵌入空间中与真实向量的余弦相似度高达0.92,并在超过8000个随机打乱的嵌入上实现完美匹配,揭示了所有编码器在不同架构或训练数据下都拥有几乎相同的表示形式。

团队从柏拉图表示假说中汲取灵感,提出强柏拉图表示假说(S-PRH):使用相同目标和模态、但不同数据及模型架构训练的神经网络,会收敛到一个通用潜在空间,使得无需任何成对对应关系即可学习到它们表征之间的转换关系。

vec2vec采用模块化架构,通过特定空间的适配器模块进行编码和解码,并经由共享主干网络完成传递。为确保转换后的向量保留嵌入语义和几何结构,引入对抗性损失、重建损失、循环一致性损失和向量空间保持损失等优化手段。

实验结果显示,vec2vec在多个指标上表现出色,尤其在自然问题(NQ)数据集上,Top-1准确率达近1.0,显著优于基线。此外,vec2vec在分布外数据(如推文和医疗记录)上同样表现稳健,并能保留足够的语义以实现属性推断。尽管仍有提升空间,但这一成果为强柏拉图表示假说提供了有力支持。

vec2vec的潜力不仅限于文本,还可扩展至其他模态。然而,这种能力也可能带来安全挑战,如恶意提取敏感信息的风险。这对数据安全而言既是突破也是考验,你怎么看?

原文链接
本文链接:https://kx.umi6.com/article/19162.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯开源通用文本表示模型 Youtu-Embedding,可应用于企业客服、智能问答等场景
2025-10-14 15:19:49
无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归
2025-05-23 19:17:29
广西“十五五”规划建议:全力打造制造业十大现代化支柱产业
2025-12-07 10:27:01
知名数学家辞职投身AI创业:老板是00后华人女生
2025-12-06 11:24:32
快手可灵 O1 主体库上线:只要有多角度参考图就能让 AI“记住”主角
2025-12-06 21:53:19
谷歌憋了十年的大招,让英伟达好日子到头了?
2025-12-08 12:25:18
智能体A2A落地华为新旗舰,鸿蒙开发者新机遇来了
2025-12-06 12:27:36
山东省“十五五”规划建议:推动深海空天、具身智能、生物制造、脑机接口、量子科技、元宇宙、氢能等成为新的经济增长点
2025-12-08 09:20:01
李开复:未来办公司和搭积木一样快,比谁更会用 Agent
2025-12-06 18:42:35
广东“十五五”规划建议:深入推进数字广东建设 加强人工智能治理
2025-12-08 08:14:45
探索机器人“无遥操”,ATEC2025科技精英赛在港收官
2025-12-08 18:41:52
硅片,洗牌进行时
2025-12-07 14:30:16
甘肃庆阳智算规模达10万P
2025-12-08 16:38:29
24小时热文
更多
扫一扫体验小程序