《小模型崛起:浏览器里的SOTA与合成数据的未来》 近日,抱抱脸发布了其小模型系列的最新成果,展示了在2亿、5亿和20亿级别的胜绩。这一成果由其首席科学家Thomas Wolf亲自揭秘,他指出,小模型的成功秘诀在于对数据的严苛筛选与针对性训练。此消息一出,立刻在业界引发广泛关注。 Wolf强调,尽管合成数据在特定领域内表现出色,但在网络的广阔与多样性面前,真实数据的潜力尚未被充分挖掘。为此,抱抱脸团队构建了25B级别的合成数据集,并通过对比发现,经过严格过滤的真实数据集在性能上超越了合成数据,从而提出了合成数据的局限性观点。 更令人瞩目的是,通过利用大模型筛选网络数据,团队实现了显著的性能提升,甚至在某些基准测试中超越了大模型本身。这种策略不仅展示了数据筛选的重要性,还为小模型的发展提供了新的方向。同时,团队也在不断优化模型的部署方式,使其能够在智能手机等资源有限的设备上高效运行,最大1.7B模型仅需3G内存即可,展现出惊人的轻量化能力。 然而,团队也注意到过去对齐与微调技术对小模型效果不佳的问题,提出这是一个值得深入研究的领域,可能成为小模型发展的新突破口。 此次成果不仅展示了抱抱脸在模型优化与部署上的创新,也为小模型在实际应用中的潜力与发展方向提供了新的思考角度。随着技术的不断进步,小模型或许能在未来的AI领域扮演更加重要的角色。
原文链接
本文链接:https://kx.umi6.com/article/5173.html
转载请注明文章出处
相关推荐
.png)
换一换
沈向洋院士:AI算力年均增长400%,讲卡伤感情、没卡没感情
2024-11-22 21:09:36
AI明星企业血战小模型,成本暴降还更省电费,加速AI普及
2024-07-22 22:17:53
小成本AI产品,也有春天
2024-06-26 19:03:41
416 文章
75616 浏览
24小时热文
更多

-
2025-07-20 14:04:00
-
2025-07-20 14:03:49
-
2025-07-20 13:03:48