1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25 清华大学团队受密室逃脱游戏启发,提出EscapeCraft——一个3D密室逃脱环境,用于评估多模态大模型(MLLMs)在复杂任务中的推理和决策能力。该研究已入选ICCV 2025。 EscapeCraft是一个沉浸式互动环境...
心智奇点
07-14 14:19:19
多模态大模型
密室逃脱
空间推理
分享至
打开微信扫一扫
内容投诉
生成图片
中信证券:Grok 4推理能力跃升 多模态能力有望突破打开全新应用场景
7月10日,XAI发布新一代基座大模型Grok 4,包括Grok 4和Grok 4 Heavy两个版本。中信证券研报指出,Grok 4在专业学科和复杂任务上展现出卓越推理能力,具备长流程专业工作的应用潜力,可支持Agent落地高价值场景。未来,其多模态能力有望突破,为行业带来全新应用场景,并推动AI基础设施与算力需求增长。研报建议关注相关投资机会,梳理三大主线:通用管理软件、工具软件及其他重点行业软件、AI基础设施,把握行业发展红利。
量子黑客
07-12 10:50:58
AI基础设施
Grok 4
多模态能力
分享至
打开微信扫一扫
内容投诉
生成图片
vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼
vivo发布端侧多模态模型,仅3B参数实现GUI理解,20项评测表现优异 vivo AI Lab推出了面向端侧设计的多模态模型BlueLM-2.5-3B,具备紧凑高效的特点,并能直接理解GUI界面。该模型融合了文本与图文理解能力,支持长短思考模式切换和思考预算控制机制(thinking token ...
梦境编程师
07-10 17:25:30
BlueLM-2.5-3B
多模态模型
端侧
分享至
打开微信扫一扫
内容投诉
生成图片
张鹏×潘乱×张一甲,对谈实录
标题:张鹏×潘乱×张一甲,对谈实录 高考季刚过,人类的高考结束了,AI的“高考”也完成了。极客公园对多款主流大模型进行了测评,结果令人震撼:AI已能轻松达到985大学录取水平,甚至部分模型如字节跳动的豆包1.6版,成绩接近清华、北大的录取标准。这让人们不禁思考:当AI超越人类考试能力时,寒窗苦读...
元界筑梦师
07-10 14:22:23
AI高考
多模态
应试教育
分享至
打开微信扫一扫
内容投诉
生成图片
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略 字节跳动与南洋理工大学(NTU)联合推出MMSearch-R1项目,通过强化学习训练多模态模型自主执行智能搜索。该研究首次尝试基于端到端强化学习的多模态模型训练,使模型能够判断何时搜索、搜索什么以及如何处...
数据炼金师
07-09 14:06:26
多模态模型
强化学习
按需搜索
分享至
打开微信扫一扫
内容投诉
生成图片
昆仑万维发布并开源 Skywork-R1V 3.0,多模态推理能力逼近人类专家水平
7月9日,昆仑万维发布并开源Skywork-R1V 3.0,其多模态推理能力逼近人类专家水平。新版本通过强化学习策略显著提升跨模态推理能力,在复杂逻辑建模和跨学科泛化上表现优异。模型基于InternVL-38B蒸馏数据训练,仅用约1.2万条监督微调样本和1.3万条强化学习样本,实现高效训练。在权威评测中,Skywork-R1V 3.0取得多项领先成绩:MMMU评测达76.0分,超越Claude-3.7-Sonnet和GPT-4.5;EMMA-Mini(CoT)评分40.3分,居开源模型首位;数学、物理、逻辑等领域均表现出色,部分指标超闭源模型。目前,模型已开放下载,涵盖HuggingFace、GitHub等平台。
神经网络领航员
07-09 11:04:18
Skywork-R1V 3.0
多模态推理
开源模型
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI 重申今夏推出最强模型 GPT-5,具备完整多模态 AI 能力
7月7日,OpenAI CEO奥尔特曼确认,GPT-5将于今年夏季发布。这款“最强模型”将实现完整多模态AI能力,集文字、图像、语音甚至视频处理于一体,无需在不同模型间切换,简化用户体验。GPT-5还将集成过去各代模型的优点,支持更大的上下文窗口,适应更长对话和复杂任务,并能根据用户行为自我调整,提供个性化服务。此前6月的墨西哥AI Summit上,OpenAI代表透露其性能远超GPT-4,但开发成本未知,价格可能较高。GPT-5被视作对抗Gemini 2.5 Pro和Claude 4的重要竞争武器。
AI创想团
07-07 21:35:27
GPT-5
OpenAI
多模态
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌Gemma 3n实测
2025年7月,谷歌DeepMind发布并开源了全新端侧多模态大模型Gemma 3n,为移动设备带来高效AI处理能力。该模型基于MatFormer架构,支持图像、音视频等多模态输入,最低仅需2GB内存即可运行。通过Google AI Edge Gallery应用,用户可在Android设备上直接体验其功能,包括对话式AI、图像理解等,无需联网。实测显示,Gemma 3n在文本处理和逻辑推理上表现中规中矩,但响应速度快且稳定性强,优于部分竞品。然而,其离线图像识别能力较基础,复杂场景理解仍显不足,中文处理偶有bug。总体而言,Gemma 3n虽偏科明显,但在移动端AI领域展现了潜力,未来值得期待。
跨界思维
07-07 11:27:31
Gemma 3n
多模态
端侧大模型
分享至
打开微信扫一扫
内容投诉
生成图片
Gemini负责人爆料!多模态统一token表示,视觉至关重要
2025年7月3日,Gemini模型负责人Ani Baddepudi在谷歌开发者频道揭秘多模态技术。Gemini从设计之初便定位为原生多模态,旨在实现通用人工智能(AGI),尤其强调视觉能力的重要性,因其在医学、金融等领域的广泛应用。通过将文本、图像、视频等统一为token表示,Gemini 2.5在视频理解方面取得显著突破,支持长达6小时的视频处理,并展现强大的泛化能力。团队正努力提升高帧率视频的理解性能,以满足更精细的时间分析需求。此外,Gemini提出“万物皆视觉”理念,目标是让模型感知物理世界并提供专家级辅助。未来方向包括增强交互性及以视觉形式传递信息,使AI更自然友好。
AI创想团
07-03 15:27:24
Gemini
多模态
视觉
分享至
打开微信扫一扫
内容投诉
生成图片
行业首个:斑马智行发布高通 8397 端侧多模态大模型方案
2025年6月27日,在高通汽车技术与合作峰会上,斑马智行联合高通和通义行业首发基于高通8397的智舱全场景端智能解决方案,并展示开发预览版。该方案推出「元神 AI 智舱・端原生智能体」,可实现智能座舱90%的“感知-决策-执行”服务闭环,支持全模态交互和主动智舱体验。现场演示了9种应用场景,包括座舱全自动、HMI自适应等。该方案融合通义Qwen VL等小尺寸模型,具备全离线语音、音色生成等能力。斑马智行已与智己、宝马等车企合作,推动AI大模型量产。高通8397作为第五代座舱平台至尊版,性能显著提升。
心智奇点
06-30 11:43:00
斑马智行
端侧多模态大模型
高通8397
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序