蚂蚁用8B小模型构建用户“话”像,跨任务跨模型通用且SOTA
蚂蚁AlignXplore+团队提出了一种基于文本的用户建模新范式,解决了大模型个性化中的关键问题。传统方法依赖ID Embedding或特定参数(如LoRA)表示用户偏好,但这些方式不可解释且难以迁移。相比之下,AlignXplore+通过自然语言总结用户偏好,实现了透明、通用的个性化方案。
为什么选择“文本”?
传统的向量或参数表示是“黑盒”,存在两大痛点:
1. 不可解释性:用户无法理解或修改系统定义的自己,这在隐私敏感的AI时代不可接受。
2. 无法迁移:向量和参数与特定模型绑定,导致用户画像无法跨任务或跨模型使用。
团队提出以文本作为通用接口,将用户偏好归纳为可读、可控的语言描述。这种方法不仅解耦了偏好推理与下游任务,还能无缝适配不同模型(如GPT、Llama等),实现真正的跨任务和跨模型通用。
AlignXplore+的核心特性
- 全域通用:整合异构数据源(如社交网络发帖、电商平台点击等),生成完整的用户画像。
- 极致迁移:一次生成的用户偏好可直接应用于多种任务和模型,无需重新训练。
- 实战适配:基于旧摘要和新交互不断演化,适应真实世界中充满噪点的数据环境。
技术框架
AlignXplore+采用两阶段训练框架:
1. SFT阶段:通过“生成-验证-合并”流程创建高质量训练数据,确保偏好总结能准确预测用户行为。
2. RL阶段:引入强化学习,设计课程剪枝和累积奖励机制,优化长期推理能力。
性能表现
尽管仅有8B参数,AlignXplore+在推荐、回复选择和生成等九大基准测试中全面超越20B/32B开源模型,平均得分75.10%,提升4.2%。其Zero-shot迁移能力尤为突出,生成的用户偏好可跨任务、跨模型使用,适应不完美数据场景。
面向未来
AlignXplore+展示了“文本即接口”的潜力,但团队认为这只是开始。未来研究方向包括:
- 流式推理的极限优化。
- 挖掘更全面的用户行为。
- 构建通用的个性化推理引擎。
相关链接
Arxiv: https://arxiv.org/pdf/2601.04963
GitHub: https://github.com/AntResearchNLP/AlignXplorePlus
Huggingface: https://huggingface.co/VanillaH1/AlignXplore-Plus
-
2026-01-31 22:05:59 -
2026-01-31 22:04:53 -
2026-01-31 22:03:47