1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:游戏bug帮大模型学物理!准确率超GPT4近4个百分点

融合物理知识的大型视频语言模型PhysVLM开源了!它不仅在PhysGame基准上展现出最先进的性能,还在通用视频理解基准Video-MME和VCG上表现出色。

在以前的研究中,让AI像人类儿童一样通过观察世界理解基本物理常识是一个主要挑战。游戏视频通常包含违反物理常识的“故障现象”,这有助于简化物理常识的理解和评估,即专注于解释物理常识的违反现象。

PhysVLM在专门整理的数据集上训练,包括用于评估的PhysGame基准、用于监督微调的PhysInstruct数据集和用于偏好对齐的PhysDPO数据集。

PhysGame基准包含880个含有故障现象的游戏视频,每个视频配有一个高质量的多项选择题,专门针对故障现象的性质进行标注。PhysGame涵盖了力学、运动学、光学和材料属性四个关键物理领域,并细分为12个具体类别。

视频收集和过滤过程中,视频主要从Reddit页面抓取,团队还通过关键词搜索从YouTube增强视频数据。团队进行了人工筛查,确保视频无重复且不含非游戏元素。

PhysGame基准的质量控制包括人工检查和LLM辅助检查。人工检查确保所有初步标注的问答对准确无误,LLM辅助检查则去除了可以不看视频就能由GPT-4正确回答的问题。

PhysInstruct数据集用于监督微调,PhysDPO数据集用于偏好对齐。PhysDPO数据集通过元信息篡改、时间篡改和空间篡改生成误导性答案。

模型评估结果显示,PhysVLM在所有专有和开源模型中都达到最先进的性能。在PhysGame基准上,PhysVLM-DPO比最佳表现的专有模型GPT-4高出3.4%的准确率。在Video-MME基准上,PhysVLM-SFT和PhysVLM-DPO在短视频和长视频上的表现优于34B模型LLaVA-NeXT-Video。在VCG基准上,PhysVLM-SFT在信息正确性和一致性类别上表现尤为出色。

PhysVLM相关论文、代码、数据均已开源: https://arxiv.org/abs/2412.01800 代码链接: https://github.com/PhysGame/PhysGame leaderboard: https://physgame.github.io/#leaderboard

原文链接
本文链接:https://kx.umi6.com/article/9803.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
游戏bug帮大模型学物理!准确率超GPT4o近4个百分点
2024-12-06 15:25:14
快手进军AICoding赛道
2025-10-23 16:11:06
硅谷投资人评估AI泡沫的5项指标
2025-10-24 10:31:18
谷歌放大招!Gemini「吞下」2.5亿地图数据,路痴AI一夜成精
2025-10-24 11:33:27
硅谷又现AI算力巨额订单!谷歌与Anthropic达成数百亿美元合作
2025-10-24 08:29:28
存储芯片“超级周期”持续演绎:三星、SK海力士料将涨价30% 客户开启囤货模式
2025-10-23 15:11:46
1.3亿美元!LiblibAI拿下国内AI应用赛道年度最大融资
2025-10-23 15:06:43
字节跳动 Seed3D 1.0 发布:一张图就能生成高精度 3D 模型
2025-10-23 14:05:22
AI推动芯片需求!英特尔三季报超预期 盘后股价大涨近9%
2025-10-24 09:33:43
马斯克:特斯拉 Optimus 机器人将成为“令人难以置信的外科医生”
2025-10-24 11:34:35
阿里夸克AI眼镜24日开启预售 3699元起
2025-10-23 19:13:38
肖远企:目前AI在金融领域的应用仍处于早期阶段 无法取代人的决策
2025-10-23 16:12:32
诺基亚CEO:目前仍处于AI超级周期的早期阶段,就像90年代的互联网
2025-10-23 20:15:12
24小时热文
更多
扫一扫体验小程序