1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

无需任何配对数据,就能实现文本嵌入的模型空间转换?康奈尔大学给出了Plus版答案——vec2vec,首个无监督文本嵌入的跨向量空间转换方法。

vec2vec利用共享潜在空间,不仅保留嵌入结构和底层输入语义,还能反推提取嵌入信息。其在目标嵌入空间中与真实向量的余弦相似度高达0.92,并在超过8000个随机打乱的嵌入上实现完美匹配,揭示了所有编码器在不同架构或训练数据下都拥有几乎相同的表示形式。

团队从柏拉图表示假说中汲取灵感,提出强柏拉图表示假说(S-PRH):使用相同目标和模态、但不同数据及模型架构训练的神经网络,会收敛到一个通用潜在空间,使得无需任何成对对应关系即可学习到它们表征之间的转换关系。

vec2vec采用模块化架构,通过特定空间的适配器模块进行编码和解码,并经由共享主干网络完成传递。为确保转换后的向量保留嵌入语义和几何结构,引入对抗性损失、重建损失、循环一致性损失和向量空间保持损失等优化手段。

实验结果显示,vec2vec在多个指标上表现出色,尤其在自然问题(NQ)数据集上,Top-1准确率达近1.0,显著优于基线。此外,vec2vec在分布外数据(如推文和医疗记录)上同样表现稳健,并能保留足够的语义以实现属性推断。尽管仍有提升空间,但这一成果为强柏拉图表示假说提供了有力支持。

vec2vec的潜力不仅限于文本,还可扩展至其他模态。然而,这种能力也可能带来安全挑战,如恶意提取敏感信息的风险。这对数据安全而言既是突破也是考验,你怎么看?

原文链接
本文链接:https://kx.umi6.com/article/19162.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯开源通用文本表示模型 Youtu-Embedding,可应用于企业客服、智能问答等场景
2025-10-14 15:19:49
成都出台人工智能产业人才九条 最高给予10亿元综合支持
2026-04-23 20:29:56
阶跃与腾讯云合作打造新一代 AI 座舱解决方案
2026-04-23 19:26:30
上海:一季度全市三大先导产业制造领域产值同比增长16.1%
2026-04-22 17:32:28
联通在线申请注册呦爱机器人商标
2026-04-24 13:14:01
Mobileye 2026财年一季度营收增长27%,自动驾驶商业化进程持续推进
2026-04-24 18:24:51
中信证券:物理AI蓬勃发展 场景落地有望提速
2026-04-24 09:03:22
DeepSeek-V4发布,华为云首发适配
2026-04-24 18:26:00
国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家
2026-04-23 23:33:29
存储“超级周期”进入业绩兑现阶段
2026-04-24 06:56:46
PPIO首批上线DeepSeek-V4预览版,1M超长上下文能力开箱即用
2026-04-24 17:23:07
中信证券:预计二季度AI行情开始发散 建议关注被动元件、消费电子等细分板块
2026-04-24 09:04:28
公募基金一季度加仓科技制造 减持信息技术和金融板块
2026-04-23 07:54:20
24小时热文
更多
扫一扫体验小程序