综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2700GB高质量数据,训出空间智能SOTA,背后秘诀全栈开源
空间智能的落地为何受限?从自动驾驶到具身智能,行业共识是:数据不足导致模型泛化能力弱,只能依赖昂贵硬件弥补。机器人感知空间主要靠RGB-D相机,它能同时捕捉RGB图像和深度信息,帮助理解三维世界。但面对镜子、玻璃门等透明或反光物体时,R...
原文链接
2月2日,华为高级副总裁、华为云CEO周跃峰宣布华为云在医疗AI领域的三大核心举措:夯实数据基础设施和资源体系,构筑医疗数字化底座;推出华为云智慧医疗专区,为基层医院、医生及开发者提供端到端支持体系;加强生态建设,通过共建共享行业模型、高质量数据集与AI工具链,降低创新门槛,加速医疗AI规模化落地。华为云致力于推动医疗AI普惠应用,促进行业协同发展。(记者 黄心怡)
原文链接
12月11日,一篇关于AI生成图像问题的文章引发关注。文章指出,即使是当前最先进的AI模型(如NanoBananaPro、Gemini等),在生成‘左手写字’等涉及左右手区别的图片时均出现严重错误,频繁生成右手场景。研究发现,这一问题源于训练数据集的偏见,现实世界中右撇子占多数,导致标注和图像数据偏向右手行为。论文《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》解释称,AI模型的泛化能力受限于数据的完整性和平衡性,若某些现象(如左撇子行为)未被充分采集,AI便无法正确学习。作者反思,这不仅是技术问题,也映射了人类自身的认知局限,并呼吁重新设计AI训练集的同时,人类也应拓宽自身视野,探索被忽视的可能性。
原文链接
2025年10月29日,苹果公司发布Pico-Banana-400K数据集,包含40万张图像,用于训练文本引导的AI图像编辑模型。该数据集基于谷歌Gemini-2.5模型构建,采用非商业性研究许可,供学术研究使用。苹果团队从OpenImages中选取多样化真实照片,并设计35种编辑指令,涵盖像素调整、场景编辑等八大类别。通过Nanon-Banana模型生成编辑结果后,由Gemini 2.5-Pro进行质量评估,确保数据准确性。数据集包括单轮与多轮编辑样本及偏好对比对,助力解决现有数据集领域偏移等问题。相关论文已发布于arXiv,数据集在GitHub免费开放。
原文链接
9月1日,国家数据局指导发布的具身智能灵巧手多样抓取仿真数据集DexonomySim正式开源,存储于北大网盘。该数据集由银河通用介绍发布,专为AI机器人灵巧抓取任务设计,包含超950万条高质量抓取姿态,覆盖1万多个物体与31种抓握类型,涵盖约94%的人类抓握分类。作为当前最大规模的灵巧手操作合成数据集,其适用于多指灵巧手高自由度操作场景,基于物理仿真生成,具备数据规范统一、真实可溯等优势,助力人形机器人实现复杂环境下的多样化抓取与任务成功率提升。
原文链接
近日,在加拿大蒙特利尔举行的国际人工智能联合会议(IJCAI)期间,蚂蚁数科与新加坡科技研究局联合主办‘深度伪造检测、定位、可解释性’研讨会。会上,蚂蚁数科开源180万深度伪造定位数据集(DDL-Datasets),涵盖人脸伪造、视频篡改、声音克隆等高危场景,标注了AI造假的具体位置和时间,助力算法可解释性提升。同时,斯坦福大学联合谷歌等开源视频数据集DeepAction,包含2600段动作视频,相关论文获最佳论文奖。此外,澳大利亚莫纳什大学研究表明,文化背景影响深度伪造感知差异。蚂蚁数科长期投入AI安全,旗下ZOLOZ‘实人认证’产品准确率达99.9%,服务覆盖超25个国家和地区。
原文链接
近期研究发现,多个AI大模型如GPT-4o、Claude、Grok、Gemini和DeepSeek在随机猜测1-100间数字时,首选数字多为42,次选为73。有趣的是,在中文环境下,第二个数字变为27。此现象最早由计算机科学家Andrej Karpathy观察到,他在Reddit上测试后确认AI倾向于选择27。后续实验显示,除少数例外,多数模型表现出类似偏好。例如,AI工程师Yogi Miraje推测,这可能是由于训练数据集中人类行为的偏见所致,尤其是人们在随机猜测时更倾向选择以7结尾的数字。此外,流行文化也对AI的选择产生影响,如42源于《银河系漫游指南》,而73因其数学特性备受推崇。尽管如此,当扩展至更大范围(如1-1,000或1-1,000,000)时,这种一致性减弱。目前,该现象仍在学术界引起热议,未来可能通过更多数据分析揭示其深层次原因。
原文链接
首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态
Meta用天价打造“元宇宙”却受制于卡通画风,Vision Pro的3-DoF体验让用户眩晕,苹果穹顶摄影棚仅能产出“人像手办”……这一切表明,没有高保真体积视频的元宇宙只是高清版《我的世界》。
清华大学-咪咕团队在CVPR 2025发布...
原文链接
人形机器人:最初的设想,最后的归宿
一百年前,机器人的设想与创作在世界各地兴起。1920年,捷克作家恰佩克创造了“Robot”一词;1927年,《大都会》中的机器人玛利亚是影史上第一个银幕人形机器人;1928年,日本科学家西村真琴打造了“学天则”,首个明确以人形构建的自动机器人。早期人们一致认为...
原文链接
3月17日,上海——傅利叶正式开源全尺寸人形机器人数据集Fourier ActionNet,并发布全球首个全流程工具链。该数据集首批上线超3万条高质量真机训练数据,涵盖多种自由度灵巧手任务及手部模仿学习数据,记录了机器人在真实环境中执行各种任务的操作细节。数据集采用视觉语言模型自动标注并经人工核验,确保精度。此外,傅利叶开放了包含采集、训练、部署算法的全流程工具链,降低研发门槛。目前,傅利叶已与多家机构合作,在强化学习等领域取得突破。未来,还将开放更多进阶数据模块。合作邮箱:gr_opensource@fftai.com。
原文链接
加载更多
暂无内容