
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
清华大学团队受密室逃脱游戏启发,提出EscapeCraft——一个3D密室逃脱环境,用于评估多模态大模型(MLLMs)在复杂任务中的推理和决策能力。该研究已入选ICCV 2025。
EscapeCraft是一个沉浸式互动环境...
原文链接
7月10日,XAI发布新一代基座大模型Grok 4,包括Grok 4和Grok 4 Heavy两个版本。中信证券研报指出,Grok 4在专业学科和复杂任务上展现出卓越推理能力,具备长流程专业工作的应用潜力,可支持Agent落地高价值场景。未来,其多模态能力有望突破,为行业带来全新应用场景,并推动AI基础设施与算力需求增长。研报建议关注相关投资机会,梳理三大主线:通用管理软件、工具软件及其他重点行业软件、AI基础设施,把握行业发展红利。
原文链接
vivo发布端侧多模态模型,仅3B参数实现GUI理解,20项评测表现优异
vivo AI Lab推出了面向端侧设计的多模态模型BlueLM-2.5-3B,具备紧凑高效的特点,并能直接理解GUI界面。该模型融合了文本与图文理解能力,支持长短思考模式切换和思考预算控制机制(thinking token ...
原文链接
标题:张鹏×潘乱×张一甲,对谈实录
高考季刚过,人类的高考结束了,AI的“高考”也完成了。极客公园对多款主流大模型进行了测评,结果令人震撼:AI已能轻松达到985大学录取水平,甚至部分模型如字节跳动的豆包1.6版,成绩接近清华、北大的录取标准。这让人们不禁思考:当AI超越人类考试能力时,寒窗苦读...
原文链接
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
字节跳动与南洋理工大学(NTU)联合推出MMSearch-R1项目,通过强化学习训练多模态模型自主执行智能搜索。该研究首次尝试基于端到端强化学习的多模态模型训练,使模型能够判断何时搜索、搜索什么以及如何处...
原文链接
7月9日,昆仑万维发布并开源Skywork-R1V 3.0,其多模态推理能力逼近人类专家水平。新版本通过强化学习策略显著提升跨模态推理能力,在复杂逻辑建模和跨学科泛化上表现优异。模型基于InternVL-38B蒸馏数据训练,仅用约1.2万条监督微调样本和1.3万条强化学习样本,实现高效训练。在权威评测中,Skywork-R1V 3.0取得多项领先成绩:MMMU评测达76.0分,超越Claude-3.7-Sonnet和GPT-4.5;EMMA-Mini(CoT)评分40.3分,居开源模型首位;数学、物理、逻辑等领域均表现出色,部分指标超闭源模型。目前,模型已开放下载,涵盖HuggingFace、GitHub等平台。
原文链接
7月7日,OpenAI CEO奥尔特曼确认,GPT-5将于今年夏季发布。这款“最强模型”将实现完整多模态AI能力,集文字、图像、语音甚至视频处理于一体,无需在不同模型间切换,简化用户体验。GPT-5还将集成过去各代模型的优点,支持更大的上下文窗口,适应更长对话和复杂任务,并能根据用户行为自我调整,提供个性化服务。此前6月的墨西哥AI Summit上,OpenAI代表透露其性能远超GPT-4,但开发成本未知,价格可能较高。GPT-5被视作对抗Gemini 2.5 Pro和Claude 4的重要竞争武器。
原文链接
2025年7月,谷歌DeepMind发布并开源了全新端侧多模态大模型Gemma 3n,为移动设备带来高效AI处理能力。该模型基于MatFormer架构,支持图像、音视频等多模态输入,最低仅需2GB内存即可运行。通过Google AI Edge Gallery应用,用户可在Android设备上直接体验其功能,包括对话式AI、图像理解等,无需联网。实测显示,Gemma 3n在文本处理和逻辑推理上表现中规中矩,但响应速度快且稳定性强,优于部分竞品。然而,其离线图像识别能力较基础,复杂场景理解仍显不足,中文处理偶有bug。总体而言,Gemma 3n虽偏科明显,但在移动端AI领域展现了潜力,未来值得期待。
原文链接
2025年7月3日,Gemini模型负责人Ani Baddepudi在谷歌开发者频道揭秘多模态技术。Gemini从设计之初便定位为原生多模态,旨在实现通用人工智能(AGI),尤其强调视觉能力的重要性,因其在医学、金融等领域的广泛应用。通过将文本、图像、视频等统一为token表示,Gemini 2.5在视频理解方面取得显著突破,支持长达6小时的视频处理,并展现强大的泛化能力。团队正努力提升高帧率视频的理解性能,以满足更精细的时间分析需求。此外,Gemini提出“万物皆视觉”理念,目标是让模型感知物理世界并提供专家级辅助。未来方向包括增强交互性及以视觉形式传递信息,使AI更自然友好。
原文链接
2025年6月27日,在高通汽车技术与合作峰会上,斑马智行联合高通和通义行业首发基于高通8397的智舱全场景端智能解决方案,并展示开发预览版。该方案推出「元神 AI 智舱・端原生智能体」,可实现智能座舱90%的“感知-决策-执行”服务闭环,支持全模态交互和主动智舱体验。现场演示了9种应用场景,包括座舱全自动、HMI自适应等。该方案融合通义Qwen VL等小尺寸模型,具备全离线语音、音色生成等能力。斑马智行已与智己、宝马等车企合作,推动AI大模型量产。高通8397作为第五代座舱平台至尊版,性能显著提升。
原文链接
加载更多

暂无内容