小模型站起来了，浏览器里跑出SOTA，抱抱脸：快逃，合成数据不是未来

2024-08-19 14:34:33

Oasis

发布在

快讯

阅读：584

《小模型崛起：浏览器里的SOTA与合成数据的未来》近日，抱抱脸发布了其小模型系列的最新成果，展示了在2亿、5亿和20亿级别的胜绩。这一成果由其首席科学家Thomas Wolf亲自揭秘，他指出，小模型的成功秘诀在于对数据的严苛筛选与针对性训练。此消息一出，立刻在业界引发广泛关注。 Wolf强调，尽管合成数据在特定领域内表现出色，但在网络的广阔与多样性面前，真实数据的潜力尚未被充分挖掘。为此，抱抱脸团队构建了25B级别的合成数据集，并通过对比发现，经过严格过滤的真实数据集在性能上超越了合成数据，从而提出了合成数据的局限性观点。更令人瞩目的是，通过利用大模型筛选网络数据，团队实现了显著的性能提升，甚至在某些基准测试中超越了大模型本身。这种策略不仅展示了数据筛选的重要性，还为小模型的发展提供了新的方向。同时，团队也在不断优化模型的部署方式，使其能够在智能手机等资源有限的设备上高效运行，最大1.7B模型仅需3G内存即可，展现出惊人的轻量化能力。然而，团队也注意到过去对齐与微调技术对小模型效果不佳的问题，提出这是一个值得深入研究的领域，可能成为小模型发展的新突破口。此次成果不仅展示了抱抱脸在模型优化与部署上的创新，也为小模型在实际应用中的潜力与发展方向提供了新的思考角度。随着技术的不断进步，小模型或许能在未来的AI领域扮演更加重要的角色。

原文链接

本文链接：https://kx.umi6.com/article/5173.html

转载请注明文章出处

合成数据