对话复旦大学教授肖仰华：这轮生成式AI泡沫早晚会破，天花板一定会到来

2024-09-10 19:23:18

灵感Phoenix

发布在

科普

阅读：2737

复旦大学教授肖仰华指出，AI大模型的发展依赖于数据的规模与质量。当前，AI大模型技术正通过增加训练数据、投入算力、增加参数数量等方式向前推进。然而，随着数据规模的不断扩大，如何确保数据的品质和使用效率成为关键。肖仰华预测，从2026年起，人类产生的新数据量将少于模型学习的新数据量，预计至2028年，AI大语言模型将耗尽人类数据资源。

这表明基于现有数据集的AI模型难以实现超越人类智能的目标。为推动中国AI技术进步，肖仰华强调了使用优质数据的重要性。他提出，发展合成数据、私域数据和个人数据训练方法，可以增强大模型的技术能力。当前，AI大模型追求大规模数据集以逼近通用人工智能（AGI）目标，但面临“幻觉”问题，即生成不准确或不真实的文本。这主要源于数据质量不高。

肖仰华认为，数据决定了AI大模型的智能上限，但当前的千亿大模型中80%的数据可能无效或错误率极高。因此，提高数据质量和多样性对于大模型技术发展至关重要。他建议采用合成数据、私域数据和个人数据等策略，解决数据耗尽问题并提升模型性能。

肖仰华指出，大模型的落地依赖于数据工程，数据在AI技术体系中扮演核心角色。若大模型要应用于各行各业，需解决“幻觉”问题，可通过合成数据、私域数据、个人数据等技术方法或协同方案实现。合成数据不仅能缓解数据短缺问题，还能促进模型理性能力的提升；私域数据有助于模型成为行业专家；个人数据可用于个性化大模型开发。

肖仰华强调，数据市场不健全导致私域数据难以汇集和流通，影响数据利用。他认为，数据评估、筛选与训练应紧密结合，重视数据应用方式。AI大模型发展仍处于早期阶段，需要理论和方法指导，参数量的增加并未显著提升模型的智能和理性能力。肖仰华预言，这轮生成式AI泡沫终将破裂，天花板即将到来。未来，人类可能需要先构建“水分”充足的大型模型，通过微调和训练获得精炼的模型，最终在小型集群或单机上完成优化工作。肖仰华坚信，这波泡沫终将破灭，AI发展将回归价值本原，推动所有行业回归核心价值。

原文链接

本文链接：https://kx.umi6.com/article/6074.html

转载请注明文章出处

大模型技术