综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
截至12月30日,我国在数据赋能人工智能领域取得显著成效。国家数据局联合26个部委,遴选72家链主单位,在科学、教育及具身智能等重点领域和创新领域先行先试,部署140项高质量数据集建设任务。目前已建成超10万个高质量数据集,总规模突破890PB(拍字节),为人工智能发展提供强大支撑。这一成果标志着我国在数据资源整合与应用方面迈上新台阶。
原文链接
12月26日,国家数据局发布《关于培育数据流通服务机构 加快推进数据要素市场化价值化的意见(征求意见稿)》,向社会公开征求意见。文件提出,拓展适应人工智能发展的高质量数据集流通交易方式,支持数据流通服务机构与产业链链主企业、人工智能企业等合作,建设高质量数据集。同时,依托数据基础设施提供数据汇聚、治理及模型训练服务,以推动数据要素的市场化和价值化发展。此举旨在促进人工智能技术进步及相关产业发展。
原文链接
12月13日,国家医保局党组书记、局长章轲在全国医疗保障工作会议上表示,计划到2026年推动建立多模态分病种及高质量单模态标准数据集。通过实践比赛等方式创设验证场景,检验人工智能辅助诊疗等技术的实用能力。此举旨在构建“概念到医保付费”的渐进式产业升级路径,引领科技创新与医保支付结合,为新技术、新产品进入医保体系铺路。(财联社记者 何凡)
原文链接
12月11日,一篇关于AI生成图像问题的文章引发关注。文章指出,即使是当前最先进的AI模型(如NanoBananaPro、Gemini等),在生成‘左手写字’等涉及左右手区别的图片时均出现严重错误,频繁生成右手场景。研究发现,这一问题源于训练数据集的偏见,现实世界中右撇子占多数,导致标注和图像数据偏向右手行为。论文《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》解释称,AI模型的泛化能力受限于数据的完整性和平衡性,若某些现象(如左撇子行为)未被充分采集,AI便无法正确学习。作者反思,这不仅是技术问题,也映射了人类自身的认知局限,并呼吁重新设计AI训练集的同时,人类也应拓宽自身视野,探索被忽视的可能性。
原文链接
截至2025年三季度末,我国已建成高质量数据集总量超500PB,为人工智能性能提升和创新加速提供重要支撑。国家数据局局长刘烈宏在12月4日的2025科创大会上指出,高质量数据集是数智创新的关键资源。国家数据局联合26个部委制定政策,以场景应用为导向推动各行业数据集建设,并部署140项先行先试任务,初步实现“‘人工智能+’到哪里,数据集建设就到哪里”的目标。刘烈宏呼吁全社会加大数据领域投入,培育“为高质量数据付费”意识,助力数据要素市场化改革。
原文链接
截至2025年三季度末,我国已建成高质量数据集总量超500PB,为人工智能发展提供重要支撑。国家数据局局长刘烈宏在12月4日的2025年科创大会上指出,高质量数据集是数智创新关键资源,国家数据局联合26个部委制定政策,推动各行业数据集建设,并部署140项先行先试任务,实现“‘人工智能+’到哪里,数据集就到哪里”的目标。刘烈宏呼吁全社会加大数据领域投入,培育为高质量数据付费的意识,助力数据要素市场化改革。
原文链接
11月21日,睿尔曼正式开源全球首个高质量、模态数量最多的真机数据集,为机器人研发提供关键数据支撑。该数据集基于北京人形机器人数据训练中心的十大真实场景,涵盖智能生活、工业装配等领域,具备高保真度与强实用性。数据模态完整性达100%,抗噪声评分78%,平滑性超82.1%,展现卓越质量。此次开源由睿源机器人发布,采用RS-01、RS-02、RS-03三款高性能采集平台,支持多模态感知与外骨骼遥操作技术,显著提升数据采集效率与精度。睿尔曼表示将持续迭代并开源更多数据集,推动机器人技术普惠与产业化落地。
原文链接
11月11日,无锡锡创鼎祺人工智能股权投资合伙企业(有限合伙)成立,出资额达5亿元。该企业经营范围涵盖以私募基金从事股权投资、投资管理及资产管理等活动。企查查股权穿透显示,其由无锡市创新投资集团有限公司与无锡数据集团有限公司等共同出资设立。这一新设合伙企业的成立,标志着无锡在人工智能领域进一步加大投资布局,展现地方资本对科技创新的强力支持。
原文链接
11月6日,索尼AI发布名为“公平以人为本图像基准”(FHIBE)的新数据集,用于测试AI模型的公平性与偏见。该数据集包含来自80多个国家近2000名参与者的图像,所有图像均基于知情同意采集,并允许参与者随时撤回授权。FHIBE涵盖详细标注,包括人口统计学特征、身体特征及环境因素等,可评估计算机视觉任务中的偏见问题。索尼发现,现有AI模型在性别代词使用、职业推测及犯罪描述中存在显著偏见,例如对肤色较深或特定族裔人群强化刻板印象。此外,发型多样性被揭示为影响偏见的关键因素之一。索尼强调,FHIBE是首个公开且具全球多样性的数据集,现已向公众开放,并将持续更新。相关研究已发表于《自然》期刊。
原文链接
2025年10月29日,苹果公司发布Pico-Banana-400K数据集,包含40万张图像,用于训练文本引导的AI图像编辑模型。该数据集基于谷歌Gemini-2.5模型构建,采用非商业性研究许可,供学术研究使用。苹果团队从OpenImages中选取多样化真实照片,并设计35种编辑指令,涵盖像素调整、场景编辑等八大类别。通过Nanon-Banana模型生成编辑结果后,由Gemini 2.5-Pro进行质量评估,确保数据准确性。数据集包括单轮与多轮编辑样本及偏好对比对,助力解决现有数据集领域偏移等问题。相关论文已发布于arXiv,数据集在GitHub免费开放。
原文链接
加载更多
暂无内容