1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
标题:快手开源多模态推理模型Keye-VL 1.5:视频理解新标杆 快手开源了新一代多模态推理模型Keye-VL 1.5,具备128k超长上下文窗口、0.1秒级视频定位能力及跨模态推理功能。相比此前版本,新模型在时序定位和跨模态推理上显著提升,并创新性提出Slow-Fast双路编码机制,在性能与...
阿达旻
09-05 22:26:24
多模态模型
视频理解
跨模态推理
分享至
打开微信扫一扫
内容投诉
生成图片
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
8月26日,面壁智能宣布开源8B参数的MiniCPM-V 4.5多模态模型,称其为“最强端侧多模态模型”。该模型在视频理解、图片识别、复杂文档解析等任务中表现卓越,尤其具备行业首个高刷视频理解能力,支持每秒处理更多帧数,大幅超越Qwen2.5-VL 72B等模型。MiniCPM-V 4.5通过3D-Resampler技术实现96倍视觉压缩率,显著提升动态画面理解精度。此外,其在MotionBench、OpenCompass等多项榜单中达到同级SOTA水平,并兼顾性能与响应速度,提供常规模式和深度思考模式。模型已开源,可通过Github、Hugging Face及ModelScope获取。
智慧棱镜
08-28 10:15:37
MiniCPM-V 4.5
多模态模型
高刷视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快
2025年8月27日,面壁智能正式开源8B参数的MiniCPM-V 4.5多模态旗舰模型。该模型是行业首个具备“高刷”视频理解能力的多模态模型,在性能与效率上实现越级领先,超越Qwen2.5-VL 72B模型。MiniCPM-V 4.5最大支持6倍视频帧数量输入,达到96倍视觉压缩率,显著提升动态画面理解精度。在图片、长视频、OCR及文档解析等任务中均达SOTA水平,并支持短思考与长思考混合推理模式,适用于端侧设备。模型已开源,可通过GitHub、Hugging Face和ModelScope获取。
电子诗篇
08-27 12:03:30
多模态模型
端侧推理
高刷视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手
8月23日,苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型,在1B、3B、7B参数规模下刷新LongVideoBench、MLVU等基准纪录。该模型通过创新双流设计,‘慢流’捕捉高分辨率场景细节,‘快流’追踪运动变化,解决现有模型冗余帧和上下文窗口限制等问题。新版本在视频与图像理解任务中表现出色,涵盖知识问答、数学推理及OCR等领域,并兼容公开数据集训练,已在GitHub和Hugging Face开源。
智能维度跳跃
08-23 16:02:10
SlowFast-LLaVA-1.5
苹果
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
标题:大模型难懂视频,GPT-4o正确率仅36%,南洋理工推出新基准 正文: 视频大型语言模型(Video LLMs)虽能描述视频内容并回答问题,但其是否真正“理解”视频仍是疑问。为解答这一问题,南洋理工大学S-Lab团队提出全新基准测试——Video Thinking Test(Video-T...
星际Code流浪者
08-01 19:06:23
GPT-4o
Video-TT
视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2 国产开源模型再添亮点,智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入,编码2048帧视频仅需12秒。 相较于上一代Video-XL,Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异,接近甚至超越部分720亿参数大模型。同时,模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件,采用四阶段渐进式训练策略,确保强大理解力。 此外,Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率,在单张24GB显卡上支持千帧视频处理,80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔,项目代码与模型已全面开源。
跨界思维
06-04 14:20:36
开源模型
视频理解
长视频
分享至
打开微信扫一扫
内容投诉
生成图片
智源研究院宣布开源超长视频理解模型Video-XL-2
今日,《科创板日报》报道,智源研究院联合上海交通大学等机构推出新一代超长视频理解模型Video-XL-2。该模型突破性地提升了视频处理时长,可在单张显卡上高效处理长达万帧的视频输入,大幅拓展了应用场景。目前,模型权重已全面开源,面向社区开发者共享资源。这一技术进展标志着视频理解领域迈入新阶段,为学术研究及产业应用提供强大支持。
神经网络领航员
06-03 12:58:08
Video-XL-2
智源研究院
超长视频理解模型
分享至
打开微信扫一扫
内容投诉
生成图片
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
标题:3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,准确率超98% 正文: 3B模型超越Meta 7B模型,超长视频理解SOTA刷新!上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro,实现近万帧视频单卡处理,大海捞针准确率超98%。 当前多模态大模型...
Oasis
05-04 23:17:35
Video-XL-Pro
重构式token压缩
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力
标题:Mamba混合架构让显存消耗减半,轻松处理10万视频token 长视频理解迎来新突破!滑铁卢大学陈文虎团队联合多家机构推出Mamba-Transformer混合模型Vamba。不同于传统压缩视频token的方式,Vamba通过优化架构设计,提升了处理视频token的效率。实验显示,Vamb...
代码编织者
03-27 13:47:30
Mamba混合架构
Vamba模型
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档
标题:Llama都在用的RoPE有了视频版,长视频理解/检索绝佳拍档 VideoRoPE团队投稿 量子位 | 公众号 QbitAI Llama都在用的RoPE(旋转位置嵌入)被扩展至视频领域,增强了长视频理解和检索能力。复旦大学与上海AI实验室等机构提出了VideoRoPE,并明确了将RoPE应用于...
AGI探路者
02-19 12:46:15
VideoRoPE
检索
长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序