1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25 清华大学团队受密室逃脱游戏启发,提出EscapeCraft——一个3D密室逃脱环境,用于评估多模态大模型(MLLMs)在复杂任务中的推理和决策能力。该研究已入选ICCV 2025。 EscapeCraft是一个沉浸式互动环境...
心智奇点
07-14 14:19:19
多模态大模型
密室逃脱
空间推理
分享至
打开微信扫一扫
内容投诉
生成图片
行业首个:斑马智行发布高通 8397 端侧多模态大模型方案
2025年6月27日,在高通汽车技术与合作峰会上,斑马智行联合高通和通义行业首发基于高通8397的智舱全场景端智能解决方案,并展示开发预览版。该方案推出「元神 AI 智舱・端原生智能体」,可实现智能座舱90%的“感知-决策-执行”服务闭环,支持全模态交互和主动智舱体验。现场演示了9种应用场景,包括座舱全自动、HMI自适应等。该方案融合通义Qwen VL等小尺寸模型,具备全离线语音、音色生成等能力。斑马智行已与智己、宝马等车企合作,推动AI大模型量产。高通8397作为第五代座舱平台至尊版,性能显著提升。
心智奇点
06-30 11:43:00
斑马智行
端侧多模态大模型
高通8397
分享至
打开微信扫一扫
内容投诉
生成图片
阶跃星辰走“窄门”
标题:阶跃星辰走“窄门” 正文:阶跃星辰近期经历了一些人事变动。Tech Fellow段楠已离职,加入京东探索研究院担任视觉与多模态实验室负责人。他曾以视频生成模型负责人的身份亮相,后晋升为Tech Fellow。 不久前,阶跃星辰被曝去年12月停止对“冒泡鸭”的大范围投入,原团队并入“跃问”(现更...
E-Poet
06-12 22:41:52
AGI
多模态大模型
阶跃星辰
分享至
打开微信扫一扫
内容投诉
生成图片
阶跃星辰走「窄门」
近日,AI创企阶跃星辰经历人事变动,Tech Fellow段楠离职加盟京东。与此同时,其C端产品“冒泡鸭”业务调整,团队并入对话产品“跃问”。作为国内大模型赛道的“多模态卷王”,阶跃星辰以原生多模态大模型为特色,但其技术路线少有人走,面临较大挑战。创始人姜大昕强调多模态是实现AGI的关键,但其一步到位的战略让阶跃星辰在竞争激烈的赛道中缺乏明显亮点。尽管发布了多款模型,包括国内首个万亿参数MoE语言大模型,阶跃星辰在榜单排名和用户活跃度上表现平平。当前,大模型融资趋于停滞,阶跃星辰需快速拿出成绩以证明自身价值,同时也需吸引更多投资人的关注。
虚拟微光
06-12 18:36:57
AGI
多模态大模型
阶跃星辰
分享至
打开微信扫一扫
内容投诉
生成图片
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
CVPR2025视频生成统一评估架构:上交x斯坦福联合提出让MLLM像人类一样打分 视频生成技术正在快速革新视觉内容创作,从电影到社交媒体,高质量视频的重要性日益凸显。然而,如何评估AI生成的视频是否符合人类审美和需求成为难题。为此,上海交通大学、斯坦福大学等机构联合提出了Video-Bench...
数字墨迹
06-12 17:39:33
Video-Bench
多模态大模型
视频评估
分享至
打开微信扫一扫
内容投诉
生成图片
小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B
5月30日,小米宣布开源其多模态大模型MiMo-VL。该模型在图片、视频及语言的理解与推理任务中表现优异,参数量仅为7B的情况下,在多项测试中显著优于10倍参数规模的阿里Qwen-2.5-VL-72B等模型,甚至超越闭源的GPT-4o,在内部评估中成为开源模型中的佼佼者。MiMo-VL-7B不仅具备强大的多模态推理能力,还能执行复杂的GUI操作,例如帮助用户将产品加入心愿单。小米采用高质量预训练数据和混合在线强化学习算法(MORL),通过多阶段预训练增强模型的多模态推理能力。目前,模型及相关评测框架已在GitHub和Hugging Face平台上开源,支持超过50项测评任务。
AGI探路者
05-30 16:57:55
MiMo-VL
小米多模态大模型
开源
分享至
打开微信扫一扫
内容投诉
生成图片
奥运攻关技术创新联合体在北京成立,将建全球最长智能跑道、首个国人运动人体专业多模态大模型
5月28日,奥运攻关技术创新联合体在京成立,落户北京经济技术开发区。该联合体由国家体育总局体育科学研究所牵头,汇聚近百家科研院所与企业,目标是提升我国体育科技创新能力,助力体育强国建设。启动仪式上,近60家单位完成签约,并展出多项奥运攻关科研成果。联合体计划建设全球最长智能跑道及首个国人运动人体专业多模态大模型,打造‘AI+体育健康’产业生态。未来将以洛杉矶奥运会备战为核心,聚焦竞技体育装备国产化等领域,预计至2034年建成国际领先的奥运科技攻关策源高地。
代码编织者
05-29 19:40:55
多模态大模型
奥运攻关
智能跑道
分享至
打开微信扫一扫
内容投诉
生成图片
蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni
5月27日,蚂蚁集团旗下百灵大模型团队在蚂蚁技术日上宣布开源统一多模态大模型Ming-lite-omni。该模型基于Ling-lite构建,采用MoE架构,总参数22B,激活参数3B。目前,模型权重和推理代码已开源,后续将逐步开放训练代码及数据。这是百灵大模型今年开源的又一重要进展,此前已开源多个模型,包括Ling-lite和Ling-plus等。Ming-lite-omni在多项评测中表现优异,性能与10B量级领先模型相当甚至更优,被认为是首个可媲美GPT-4o的开源多模态模型。百灵大模型负责人西亭称,团队未来计划优化Ming-lite-omni的多模态理解和推理能力,并开发更大规模的Ming-plus-omni,同时筹备Ling Max版本,预计发布时间与DeepSeek V3相近。
梦境编程师
05-29 12:28:01
Ming-lite-omni
多模态大模型
开源
分享至
打开微信扫一扫
内容投诉
生成图片
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合
标题:多模态大模型视觉推理能力不足:RBench-V评估显示o3仅25.8%,远低于人类82.3% 多模态时代如何评估模型的视觉输出能力?清华大学、腾讯混元、斯坦福大学等机构联合发布RBench-V,专门评估大模型的视觉推理能力。该基准测试涵盖几何、物理、计数及图形游戏等领域,要求模型生成或修改图像...
LunarCoder
05-28 16:33:14
RBench-V
多模态大模型
视觉推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
字节迭代多模态大模型 媲美谷歌新品 智能体能力更强、推理成本更低
5月13日,《科创板日报》报道,字节跳动Seed团队发布视觉-语言多模态大模型Seed1.5-VL。该模型在超3Ttokens的多模态数据上预训练,具备强通用多模态理解和推理能力,且推理成本低。尽管其参数仅20B,但在60个评测基准中38个达到SOTA表现,尤其在视频和GUI任务中表现优异。与谷歌Gemini 2.5 Pro相比,Seed1.5-VL在部分任务中性能相当,但成本更低。模型在视觉定位、计数及GUI交互上有突出表现,但目标计数、复杂空间关系解析及视频动作推理等方面仍有不足。目前,Seed1.5-VL已通过火山引擎开放API供用户体验。国内外大厂纷纷布局多模态技术,全球AI竞争激烈,算力需求随之增长。
灵感Phoenix
05-13 15:57:01
多模态大模型
推理成本
智能体
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序