1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
2025年12月,中国研究团队推出全球首个原生多模态架构NEO,由商汤科技与南洋理工大学联合研发。NEO颠覆传统模块化拼接方式,实现视觉与语言的一体化深度融合,仅用十分之一的训练数据便在多项评测中追平甚至超越旗舰模型如GPT-4V、Claude 3.5等。其三大核心技术包括原生图块嵌入、原生三维旋转位置编码和原生多头注意力机制,显著提升数据效率和推理能力。NEO在中小参数规模(2B-8B)表现出色,适合边缘设备部署,大幅降低多模态模型的应用门槛。商汤已开源2B与9B两种规格模型,推动行业向原生架构迁移。NEO的出现验证了Ilya Sutskever关于‘架构创新重于规模堆砌’的预言,为AI未来发展指明方向。
AI创想团
12-06 21:51:03
NEO
原生多模态架构
视觉与语言融合
分享至
打开微信扫一扫
内容投诉
生成图片
豆包语音识别模型2.0上线
12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)。新模型推理能力显著提升,上下文关键词召回率提高20%,通过深度理解上下文实现更精准的语音识别。新增多模态视觉识别功能,支持单图和多图输入,进一步提升文字识别准确性。此外,该模型支持13种海外语种,包括日语、韩语、德语和法语等,满足国际化需求。此次升级为语音识别技术带来全新突破,助力多场景应用发展。
WisdomTrail
12-05 16:45:45
多模态视觉识别
海外语种识别
豆包语音识别模型
分享至
打开微信扫一扫
内容投诉
生成图片
豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语
12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),新增多模态视觉识别功能,支持“听懂字”和“看懂图”,大幅提升文字与场景识别精准度。模型优化了上下文推理能力,关键词召回率提升20%,并支持日语、韩语、德语、法语等13种外语识别。通过深度理解上下文及图像辅助,可精准判断易混淆词汇,如搜拍场景中的“滑鸡”与“滑稽”。此外,模型基于PPO强化学习方案,无需依赖历史记录即可泛化理解动态交互场景,适用于图片创作和跨语言交流。目前,该模型已上线火山方舟体验中心,并对外提供API服务。
WisdomTrail
12-05 16:43:33
13种外语支持
多模态视觉识别
豆包语音识别模型
分享至
打开微信扫一扫
内容投诉
生成图片
行业首个:商汤发布并开源 NEO 原生多模态模型架构,实现视觉、语言深层统一
12月2日,商汤科技联合南洋理工大学S-Lab发布并开源全新多模态模型架构NEO,称其为“行业首个实现深层次融合的原生多模态架构”。NEO通过注意力机制、位置编码和语义映射三大创新,打破传统模块化设计局限,统一处理视觉与语言能力。相比主流模型,NEO仅需1/10数据量(3.9亿图像文本示例),即可在视觉理解任务中追平顶级模型,并在多项公开评测中表现优异。此外,NEO支持边缘部署,在0.6B-8B参数区间性价比突出。商汤已开源2B与9B两种规格模型,供开发者使用。
虚拟微光
12-02 23:39:14
NEO架构
商汤科技
多模态模型
分享至
打开微信扫一扫
内容投诉
生成图片
全球首个统一多模态视频模型,快手可灵视频 O1 模型全量上线
12月1日,快手可灵AI宣布全球首个统一多模态视频模型——可灵视频O1模型全量上线。该模型采用全新生成式底座与MVL交互架构,支持单一输入框内融合多种任务,并结合Chain-of-thought技术,具备强大的常识推理与事件推演能力。官方称,其深层语义理解力可将照片、视频、文字视为指令,同时推出全新创作界面,用户通过简单对话即可精准生成细节。此外,该模型支持多视角构建主体,确保画面连贯稳定,并能自由组合多个主体,为创作者提供更高效的工具。
LunarCoder
12-02 01:42:04
可灵视频O1
多模态视频模型
统一模型
分享至
打开微信扫一扫
内容投诉
生成图片
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
2025年11月,Transformer作者、OpenAI研究科学家Łukasz Kaiser爆料GPT-5.1内幕,揭示AI底层范式正从预训练转向推理模型。他指出,AI发展并未放缓,而是进入平稳增长阶段,类似摩尔定律的指数曲线仍在延续。GPT-5.1并非小版本更新,而是一次重大迭代,强化了安全性、减少幻觉,并新增多种风格选择。OpenAI内部命名规则也转向以用户体验为导向。未来突破点将集中在多模态推理和具身智能领域,家用机器人可能成为继ChatGPT后的下一场直观AI革命。Łukasz强调,AI不会让人类失去工作,但会改变工作方式,尤其在高风险场景中仍需依赖人类专家。
智能涌动
11-30 14:13:24
GPT-5.1
OpenAI
多模态推理
分享至
打开微信扫一扫
内容投诉
生成图片
视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊
视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊 快手新一代旗舰多模态大语言模型Keye-VL-671B-A37B正式发布!在保持基础模型强大通用能力的同时,该模型在视觉感知、跨模态对齐和复杂推理链路上进行了系统升级,实现了更精准的“看”、“想”、“答”。 图像语义理解更可靠 ...
代码编织者Nexus
11-28 17:39:28
Keye-VL
多模态
视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优 中兴通讯AIM团队投稿 量子位 | 公众号 QbitAI 一项被AAAI 2026接收的研究,针对多模态大模型后训练的难题提出全新解决方案。研究发现,在视觉推理与感知任务中,仅用中等和困难样本训练、完全跳过SFT...
数据炼金师
11-28 12:26:14
GRPO-only
多模态大模型
难度感知采样
分享至
打开微信扫一扫
内容投诉
生成图片
这款应用爆火背后,AI下半场正从「聊天」变「办事」
11月18日,AI应用“灵光”正式上线,22日用户突破100万,24日下载量达200万,创历史新高。其服务器因超预期用户量曾短暂宕机,后紧急扩容8轮。灵光凭借“闪应用”功能快速破圈,覆盖职场人士、学生、宝妈等多类人群,生成了如“溏心蛋计时器”“深蹲助手”等实用小应用。与传统AI不同,灵光注重“信息美学”,以简洁总结和多模态输出(图文、动画)解决信息过载问题。其爆火标志着AI从“聊天”转向“办事”,满足碎片化需求,推动AI实用化趋势。未来,灵光计划加强代码能力与动态交互,并有望与支付宝生态联动,进一步提升生产力价值。蚂蚁CTO称,当前AGI发展阶段类似2000年互联网,技术与市场潜力巨大。
AI创意引擎
11-27 16:49:01
AI应用
多模态
灵光
分享至
打开微信扫一扫
内容投诉
生成图片
大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索
大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索 纽约大学研究团队在论文《Thinking in 360°: Humanoid Visual Search in the Wild》中,提出了一种全新的“类人视觉搜索”(Humanoid Visual Search, HVS)任务,让大模型能够...
数字墨迹
11-27 16:44:41
360度全景
多模态大模型
类人视觉搜索
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序