1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归

无需任何配对数据,就能实现文本嵌入的模型空间转换?康奈尔大学给出了Plus版答案——vec2vec,首个无监督文本嵌入的跨向量空间转换方法。

vec2vec利用共享潜在空间,不仅保留嵌入结构和底层输入语义,还能反推提取嵌入信息。其在目标嵌入空间中与真实向量的余弦相似度高达0.92,并在超过8000个随机打乱的嵌入上实现完美匹配,揭示了所有编码器在不同架构或训练数据下都拥有几乎相同的表示形式。

团队从柏拉图表示假说中汲取灵感,提出强柏拉图表示假说(S-PRH):使用相同目标和模态、但不同数据及模型架构训练的神经网络,会收敛到一个通用潜在空间,使得无需任何成对对应关系即可学习到它们表征之间的转换关系。

vec2vec采用模块化架构,通过特定空间的适配器模块进行编码和解码,并经由共享主干网络完成传递。为确保转换后的向量保留嵌入语义和几何结构,引入对抗性损失、重建损失、循环一致性损失和向量空间保持损失等优化手段。

实验结果显示,vec2vec在多个指标上表现出色,尤其在自然问题(NQ)数据集上,Top-1准确率达近1.0,显著优于基线。此外,vec2vec在分布外数据(如推文和医疗记录)上同样表现稳健,并能保留足够的语义以实现属性推断。尽管仍有提升空间,但这一成果为强柏拉图表示假说提供了有力支持。

vec2vec的潜力不仅限于文本,还可扩展至其他模态。然而,这种能力也可能带来安全挑战,如恶意提取敏感信息的风险。这对数据安全而言既是突破也是考验,你怎么看?

原文链接
本文链接:https://kx.umi6.com/article/19162.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯开源通用文本表示模型 Youtu-Embedding,可应用于企业客服、智能问答等场景
2025-10-14 15:19:49
无需数据配对,文本嵌入也能互通?康奈尔研究:所有模型殊途同归
2025-05-23 19:17:29
Anthropic下调其利润率预期
2026-01-22 11:52:20
融捷股份等成立新公司 含多项AI业务
2026-01-22 15:00:25
黄仁勋谈AI泡沫:泡沫产生是因为投资规模空前庞大 巨额投资是为了构建AI基础设施
2026-01-22 16:01:49
黄仁勋:AI时代蓝领更吃香 水管工、电工能拿六位数薪水
2026-01-22 07:42:15
与他们谈论AI后,感觉大家都是温水里的青蛙
2026-01-21 20:23:27
57.1%的人分不清真假!Runway新视频模型太爆炸
2026-01-22 14:56:01
凸显新型国际财经媒体优势 界面财联社旗下财跃星辰AI决策系统入选上海开源典型案例
2026-01-22 12:52:54
昇腾云客户2663家,华为云稳居最大国产AI云服务提供商
2026-01-22 17:01:32
白宫加密与AI顾问 :美国传统银行与加密行业最终将融合为数字资产行业
2026-01-22 16:00:45
AWS上调GPU价格,国产云服务或跟进调整
2026-01-23 17:11:08
英特尔CEO陈立武:AI需求强劲 对未能完全满足市场需求感到遗憾
2026-01-23 11:53:08
24小时热文
更多
扫一扫体验小程序