1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
多模态通用感知能力超越 GPT-5,上海 AI 实验室开源书生・万象 3.5 大模型
9月3日,上海AI实验室开源多模态大模型书生・万象3.5(InternVL3.5),参数覆盖10亿至2410亿,适用于多种场景。旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中获77.7分,超越GPT-5的多模态感知能力,并领跑开源文本能力。相比上一代,新版本在GUI交互、具身空间感知和矢量图形生成等任务显著提升。其GUI交互性能达92.9分,Windows自动化操作领先Claude-3.7-Sonnet;具身智能体测试中路径规划能力超Gemini-2.5-Pro;矢量图形生成刷新开源纪录。此外,InternVL3.5支持跨平台操作,具备复杂场景泛化能力,助力机器人高效完成物理交互任务。目前全系列下载量突破2300万次,相关代码与模型已开源。
电子诗篇
09-03 21:51:48
InternVL3.5
上海AI实验室
多模态大模型
分享至
打开微信扫一扫
内容投诉
生成图片
上海AI实验室开源通用多模态大模型书生·万象3.5
9月3日,上海AI实验室宣布开源通用多模态大模型书生·万象3.5(InternVL3.5)。本次开源涵盖9种尺寸模型,参数量从10亿到2410亿不等。旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中取得77.7分,为开源模型最高分,其多模态感知能力超越GPT-5,文本能力领先主流开源多模态模型。相比InternVL3.0,新版本在GUI智能体、具身空间感知、矢量图像理解与生成等任务上显著提升。
梦境编程师
09-03 20:52:29
上海AI实验室
书生·万象3.5
多模态大模型
分享至
打开微信扫一扫
内容投诉
生成图片
SuperCLUE多模态视觉评测榜:文心4.5 Turbo总分并列国内第一
8月28日,SuperCLUE-VLM多模态视觉语言模型评测榜单发布,百度ERNIE-4.5-Turbo-VL以66.47分并列国内第一,仅次于Gemini-2.5-Pro和GPT-5(high)。本次评测覆盖15款国内外模型,围绕基础认知、视觉推理和应用三大维度展开,全面评估真实场景任务能力。分析指出,文心大模型在多模态领域表现突出,尤其在视觉推理与应用等高阶任务上进步显著,展现了中国在该领域的竞争潜力。此前,百度于6月30日开源文心4.5系列模型,其跨模态能力支持超100种语言交互,覆盖文档处理、视频管理等核心场景。依托全栈自研体系,飞桨文心已服务67万家企业,开发者超2185万。
量子思考者
08-28 21:28:42
ERNIE-4.5-Turbo-VL
SuperCLUE-VLM
多模态大模型
分享至
打开微信扫一扫
内容投诉
生成图片
当虹科技上半年亏损收窄 研发投入下降
2025年8月22日晚间,当虹科技发布半年报显示,上半年营收1.33亿元,同比增长12.70%;归母净亏损收窄至615.24万元,同比减亏3562.64万元。公司AI产品及多模态大模型应用落地,传媒文化与车载智能座舱业务显著增长。毛利率提升8.83个百分点,减值损失减少766.48万元。第二季度实现盈利,归母净利润573.70万元。研发投入下降30.46%,占比营收31.92%。公司累计申请发明专利552项,授权208项,持续推动AI与超高清、5G技术融合,视频应用向多行业延伸。
AI创想团
08-23 08:59:00
多模态大模型
当虹科技
研发投入
分享至
打开微信扫一扫
内容投诉
生成图片
商汤多模态大模型赋能铁路勘察设计,让70年经验“活”起来
商汤多模态大模型赋能铁路勘察设计,让70年经验“活”起来 中铁第一勘察设计院(铁一院)与商汤科技合作,推出“国铁价值工程多模态大模型应用平台”,首次将多模态大模型技术应用于铁路工程设计领域。这一平台融合文本、图纸、表格等异构数据,构建统一知识库和专业推理模型,解决知识传承难、经验迁移难、数据利用低等...
智能涌动
08-13 22:42:24
商汤多模态大模型
知识传承
铁路勘察设计
分享至
打开微信扫一扫
内容投诉
生成图片
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025年8月8日,小红书开源了首个多模态大模型dots.vlm1,基于自研12亿参数视觉编码器和DeepSeek V3语言模型构建。该模型在视觉理解与推理任务中性能接近SOTA水平,可完成色盲图识别、数独解题、高考数学题解答等复杂任务,并能模仿李白诗风创作诗词。模型已在GitHub和HuggingFace平台开源,提供Demo供体验。这是小红书两个月内开源的第三款模型,体现了其技术自研的决心。团队强调多元智能研发方向,未来或将进一步结合图文生成能力与应用产品,推动更精准的内容理解和社区交互。
AGI探路者
08-08 16:14:57
dots.vlm1
多模态大模型
视觉语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
小红书开源多模态大模型
8月7日,小红书hi lab宣布开源其dots模型家族中的首个视觉语言模型dots.vlm1。该模型基于12亿参数的视觉编码器和DeepSeek V3 LLM构建,经过大规模预训练与精调,在视觉感知和推理能力上达到接近行业领先水平(准SOTA)。这一开源项目有望推动多模态技术的发展,并为开发者提供更强大的工具支持。
量子黑客
08-07 14:53:39
dots.vlm1
多模态大模型
小红书
分享至
打开微信扫一扫
内容投诉
生成图片
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25 清华大学团队受密室逃脱游戏启发,提出EscapeCraft——一个3D密室逃脱环境,用于评估多模态大模型(MLLMs)在复杂任务中的推理和决策能力。该研究已入选ICCV 2025。 EscapeCraft是一个沉浸式互动环境...
心智奇点
07-14 14:19:19
多模态大模型
密室逃脱
空间推理
分享至
打开微信扫一扫
内容投诉
生成图片
行业首个:斑马智行发布高通 8397 端侧多模态大模型方案
2025年6月27日,在高通汽车技术与合作峰会上,斑马智行联合高通和通义行业首发基于高通8397的智舱全场景端智能解决方案,并展示开发预览版。该方案推出「元神 AI 智舱・端原生智能体」,可实现智能座舱90%的“感知-决策-执行”服务闭环,支持全模态交互和主动智舱体验。现场演示了9种应用场景,包括座舱全自动、HMI自适应等。该方案融合通义Qwen VL等小尺寸模型,具备全离线语音、音色生成等能力。斑马智行已与智己、宝马等车企合作,推动AI大模型量产。高通8397作为第五代座舱平台至尊版,性能显著提升。
心智奇点
06-30 11:43:00
斑马智行
端侧多模态大模型
高通8397
分享至
打开微信扫一扫
内容投诉
生成图片
阶跃星辰走“窄门”
标题:阶跃星辰走“窄门” 正文:阶跃星辰近期经历了一些人事变动。Tech Fellow段楠已离职,加入京东探索研究院担任视觉与多模态实验室负责人。他曾以视频生成模型负责人的身份亮相,后晋升为Tech Fellow。 不久前,阶跃星辰被曝去年12月停止对“冒泡鸭”的大范围投入,原团队并入“跃问”(现更...
E-Poet
06-12 22:41:52
AGI
多模态大模型
阶跃星辰
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序