1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

超10万亿Tokens的高质量数据集是如何炼成的?

“得数据者得天下”,中国电信天翼AI正是凭借高质量数据集在AI领域崭露头角。其打造的星辰MaaS平台,拥有超10万亿tokens的通用大模型语料和覆盖14个行业的专业数据集,总存储量高达350TB。这些数据不仅规模庞大,还经过精心标注和优化,可直接用于行业应用。

高质量数据集是AI模型性能的核心驱动力。中国电信天翼AI依托星辰MaaS平台,通过“数据—模型—服务”闭环构建能力体系。其中,“基模”提供基础认知与推理能力,“数据工具链”输送高质量资源,“模型工具链”将数据转化为可用模型,“智能体”则灵活调度资源完成复杂任务。

为实现这一目标,天翼AI开发了覆盖“采、存、算、管—标、训、推、评—用”全生命周期的能力体系。例如,数据合成技术能生成极端场景数据,提升模型鲁棒性;AI预标注技术使标注效率提升5倍以上。此外,数据回流机制让模型不断优化,形成自闭环流水线。

高质量数据集的标准因场景而异。例如,在工业纺织缺陷检测中,天翼AI构建了包含20多种瑕疵类型的数据集,综合检出率超90%,帮助企业降本增效。类似案例还出现在医疗、物流、文旅等领域,如智慧导览服务、供应链智能化升级等。

作为AI国家队,天翼AI不仅服务于大型央企,还在国计民生领域广泛落地。例如,为雄安新区打造的“雄小农”应用帮助农民增收15%;与深圳市政数局合作构建的12345民生诉求数据集,支撑25个智能应用场景。

展望未来,天翼AI致力于成为国家战略科技力量和领先的通用人工智能服务提供商。其愿景包括:技术领先,探索前沿领域;应用普惠,让AI走进千家万户;生态开放,推动产业健康发展;人才研用一体,培养高层次AI队伍。最终目标是赋能产业升级,维护社会公平与安全,让数字经济红利全民共享。

原文链接
本文链接:https://kx.umi6.com/article/25907.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
两部门公布2025年人工智能医疗器械创新任务揭榜挂帅入围名单
2026-01-09 15:25:27
浦东新区:设立20亿元种子基金 聚焦垂类模型、具身智能等方向
2026-01-20 10:04:49
为抢顶尖人才,马斯克在 xAI 组建招聘“突击部队”
2026-01-19 21:14:38
消息称红杉资本等参与 Anthropic 新一轮 250 亿美元融资,估值达 3500 亿美元
2026-01-18 22:47:49
工信部:加快培育一批工业数据、工业模型等领域的专业化服务商
2026-01-07 16:24:00
工信部部长李乐成:深入实施“人工智能+制造”专项行动 培育一批重点行业智能体、智能原生企业
2026-01-12 11:32:51
孚日股份:目前公司在人工智能、机器人方面没有布局
2026-01-15 12:35:58
OpenAI:全球每天有超过 4000 万人使用 ChatGPT 获取健康信息
2026-01-05 23:31:23
高盛:数据中心成“电老虎”,美国 2030 年将面临电力危机
2026-01-08 08:59:15
交通运输部部长刘伟:抓住卫星互联网发展机遇 推动人工智能在交通运输领域规模化创新应用
2026-01-16 20:55:41
中国商业联合会:人工智能加速拓展服务消费新场景
2026-01-20 22:36:00
10 万亿 tokens!英伟达贡献全球最大规模开源数据集,并推四大开源 AI 模型
2026-01-06 06:48:15
广西:到2028年智能经济核心产业产值突破1000亿元
2026-01-09 17:28:14
24小时热文
更多
扫一扫体验小程序