1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊
视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊 快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布!在保持基础模型强大通用能力的同时,该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级,实现了更精准的“看”、“想”、“答”。 图像语义理解更可靠 ...
代码编织者Nexus
11-28 17:39:28
分享至
打开微信扫一扫
内容投诉
生成图片
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
标题:快手开源多模态推理模型Keye-VL 1.5:视频理解新标杆 快手开源了新一代多模态推理模型Keye-VL 1.5,具备128k超长上下文窗口、0.1秒级视频定位能力及跨模态推理功能。相比此前版本,新模型在时序定位和跨模态推理上显著提升,并创新性提出Slow-Fast双路编码机制,在性能与...
阿达旻
09-05 22:26:24
分享至
打开微信扫一扫
内容投诉
生成图片
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
标题:大模型难懂视频,GPT-4o正确率仅36%,南洋理工推出新基准 正文: 视频大型语言模型(Video LLMs)虽能描述视频内容并回答问题,但其是否真正“理解”视频仍是疑问。为解答这一问题,南洋理工大学S-Lab团队提出全新基准测试——Video Thinking Test(Video-T...
星际Code流浪者
08-01 19:06:23
分享至
打开微信扫一扫
内容投诉
生成图片
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2 国产开源模型再添亮点,智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型可在单张显卡上高效处理长达万帧的视频输入,编码2048帧视频仅需12秒。 相较于上一代Video-XL,Video-XL-2在效果、长度、速度三方面全面升级。在MLVU、Video-MME、LVBench等主流评测中表现优异,接近甚至超越部分720亿参数大模型。同时,模型架构包含视觉编码器、动态Token合成模块及大语言模型三大核心组件,采用四阶段渐进式训练策略,确保强大理解力。 此外,Video-XL-2通过分段式预装填与双粒度KV解码机制优化效率,在单张24GB显卡上支持千帧视频处理,80GB显卡上可达万帧级。其在影视内容分析、异常行为监测等领域应用前景广阔,项目代码与模型已全面开源。
跨界思维
06-04 14:20:36
分享至
打开微信扫一扫
内容投诉
生成图片
达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩
达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA 7B大小的视频理解模型新SOTA,由达摩院发布的Video LLaMA 3,以图像为中心构建新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度中,VideoLLaMA 3表现优异,超越多数基线模型。 适用于...
AI幻想空间站
02-14 12:34:39
分享至
打开微信扫一扫
内容投诉
生成图片
Meta 推出 Apollo 开源模型,让 AI “看懂”视频
Meta与斯坦福大学合作,于12月18日推出Apollo开源AI模型系列,旨在显著提升机器对视频的理解能力。当前,尽管AI在图像和文本处理上有显著进展,但视频处理仍是难题。Apollo模型通过两个组件解决此问题:一个处理单帧,另一个追踪时间变化中的对象和场景。研究显示,采用分阶段训练方法并优化数据集配比,能显著提升模型性能。Apollo模型在不同规模上表现优异,小至Apollo-3B,大至Apollo-7B,均超越同类产品。Meta已开源Apollo的代码和模型权重,并在Hugging Face平台上提供公开演示。
未来笔触
12-18 14:33:56
分享至
打开微信扫一扫
内容投诉
生成图片
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
标题:突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力 当前评测基准存在几大缺陷:多注重短视频,难以考察长时序理解能力;评估任务较简单,未涉及细粒度能力;问题与画面时序性关联弱;对开放性问题的评估不够精准。针对这些问题,MMBench-Video应运...
AI幻想空间站
10-30 17:14:43
分享至
打开微信扫一扫
内容投诉
生成图片
天问大模型再升级,不仅能“看”懂视频,更能快速实现小目标识别、场景关系理解
标题:天问大模型再升级,不仅能“看”懂视频,更能快速实现小目标识别、场景关系理解 正文: 时隔四个月,天问大模型迎来新一轮升级。在“中国国际社会公共安全产品博览会”上,依图科技展示了最新的依图天问大模型4.5。 此次展出的依图天问4.5在视频内容理解方面表现突出,不仅能够“看”懂视频,还能快速识别小...
智能维度跳跃
10-24 13:07:41
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序