1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

复旦大学教授肖仰华指出,AI大模型的发展依赖于数据的规模与质量。当前,AI大模型技术正通过增加训练数据、投入算力、增加参数数量等方式向前推进。然而,随着数据规模的不断扩大,如何确保数据的品质和使用效率成为关键。肖仰华预测,从2026年起,人类产生的新数据量将少于模型学习的新数据量,预计至2028年,AI大语言模型将耗尽人类数据资源。

这表明基于现有数据集的AI模型难以实现超越人类智能的目标。为推动中国AI技术进步,肖仰华强调了使用优质数据的重要性。他提出,发展合成数据、私域数据和个人数据训练方法,可以增强大模型的技术能力。当前,AI大模型追求大规模数据集以逼近通用人工智能(AGI)目标,但面临“幻觉”问题,即生成不准确或不真实的文本。这主要源于数据质量不高。

肖仰华认为,数据决定了AI大模型的智能上限,但当前的千亿大模型中80%的数据可能无效或错误率极高。因此,提高数据质量和多样性对于大模型技术发展至关重要。他建议采用合成数据、私域数据和个人数据等策略,解决数据耗尽问题并提升模型性能。

肖仰华指出,大模型的落地依赖于数据工程,数据在AI技术体系中扮演核心角色。若大模型要应用于各行各业,需解决“幻觉”问题,可通过合成数据、私域数据、个人数据等技术方法或协同方案实现。合成数据不仅能缓解数据短缺问题,还能促进模型理性能力的提升;私域数据有助于模型成为行业专家;个人数据可用于个性化大模型开发。

肖仰华强调,数据市场不健全导致私域数据难以汇集和流通,影响数据利用。他认为,数据评估、筛选与训练应紧密结合,重视数据应用方式。AI大模型发展仍处于早期阶段,需要理论和方法指导,参数量的增加并未显著提升模型的智能和理性能力。肖仰华预言,这轮生成式AI泡沫终将破裂,天花板即将到来。未来,人类可能需要先构建“水分”充足的大型模型,通过微调和训练获得精炼的模型,最终在小型集群或单机上完成优化工作。肖仰华坚信,这波泡沫终将破灭,AI发展将回归价值本原,推动所有行业回归核心价值。

原文链接
本文链接:https://kx.umi6.com/article/6074.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
小扎豪掷143亿,却换不来AI燃料,数据之争下半场,中国冲出一匹黑马
2025-09-17 13:30:40
《纽约时报》达成首份以生成式 AI 为重点内容许可协议,合作方为亚马逊
2025-06-04 11:19:41
阿里云将在韩国启用第二座数据中心 满足生成式AI需求
2025-06-19 10:50:10
Meta将在欧盟推出生成式AI助手 仅限文本模式
2025-03-20 15:36:27
商汤集团:2024年亏损净额为43亿元收窄33.7% 生成式AI收入突破24亿元
2025-03-26 18:08:18
腾讯研究院最新报告揭示:生成式AI在中国近乎全面普及,网民心态呈现“效率赋能”与“职业焦虑”的双重奏
2025-09-29 12:06:57
我国发布首部生成式 AI 翻译应用指南,为行业提供系统指导
2025-05-04 14:05:07
科技行业裁员潮与 AI 豪言反差鲜明,Meta 项目时薪从 21 美元降至 16 美元
2025-11-17 09:13:35
消息称英伟达重金收购合成数据公司 Gretel,强化生成式 AI 战略布局
2025-03-20 19:43:27
剑桥大学报告:近半小说家担心自己会被生成式 AI“抢饭碗”
2025-11-21 23:48:43
AI是泡沫吗?一个实用框架来回答科技界最大的疑问
2025-09-28 10:53:01
古尔曼:苹果自研 AI 搜索产品计划于明年 3 月随新版 Siri 一同推出
2025-09-07 21:49:50
机构预测:中国生成式AI相关网络硬件支出将从2023年的65亿元增加到2028年的330亿元
2025-08-15 12:17:39
24小时热文
更多
扫一扫体验小程序