全模态 - AI优秘圈

实测拿215项SOTA的Qwen3.5-Omni：摄像头一开，AI给我现场讲论文、撸代码

2026年3月，Qwen3.5-Omni正式发布，具备‘全模态’原生能力，支持文本、图片、音频及音视频输入，可生成带时间戳的音视频脚本。该模型拿下215项SOTA，性能与Gemini 3.1 Pro相当，在音频理解、推理等领域全面超越后者。其新增vibe coding功能，可在视频通话中实时生成代码或前端原型，并支持语义打断、音色克隆等交互能力。实测显示，Qwen3.5-Omni能精准分析复杂视频、解读学术论文、完成网页设计，表现出色。模型采用Thinker-Talker架构，结合Hybrid-Attention MoE技术，实现高效多模态处理与自然语音输出。目前，用户可通过Qwen Chat或阿里云API体验该模型。

原文链接

智能维度跳跃

03-31 16:55:07

分享至

打开微信扫一扫

内容投诉

生成图片

大模型不再只是生成：智象未来CTO姚霆谈AI如何开始“完成”一个“创作”

标题：大模型不再只是生成：智象未来CTO姚霆谈AI如何“完成创作” 正文：过去一年，AI行业的竞争已从单项能力的比拼转向系统化任务的实现。文生图、图生视频等技术模块逐渐被整合到统一框架下，目标是让模型不仅生成内容，还能理解复杂意图、调动多种能力，完成端到端的创作任务。这种趋势使“世界模型”的竞...

原文链接

灵感Phoenix

03-30 20:06:34

分享至

打开微信扫一扫

内容投诉

生成图片

国产玩家亮剑世界模型！把全模态卷到顶后，天工AI不藏了

国产玩家亮剑世界模型！天工AI迈向平台经济在多模态技术竞争激烈的今天，天工AI给出了清晰答案：不是更强的模型，而是平台。这一判断来自中关村论坛的国家级科技创新平台，天工AI董事长周亚辉在发布会上分享了从“大模型工具时代”迈向“AI平台经济”的第二次跃迁。模型是引擎，平台是工厂，创意创作者是老板，三...

原文链接

虚拟微光

03-27 22:20:52

分享至

打开微信扫一扫

内容投诉

生成图片

从Token到词元：全模态时代的基模与交互入口

2026年3月24日，国家数据局首次将“词元”确立为Token标准译名，日均调用量突破140万亿。随着多模态场景兴起，Token从离散文本转向连续感知，生产与消耗方式发生范式变化。模思智能完成数亿元天使轮融资，由IDG资本领投，投资方看好其全模态技术布局。团队以语音为突破口，推动统一Token结构，实现语音、文本、图像等多模态信息的离散化表达与计算。公司核心成果包括SpeechGPT、AnyGPT等，覆盖全模态基座模型能力闭环，并在消费电子、智能汽车等领域验证商业化潜力。模思智能正探索下一代智能系统的核心结构，定义词元生产与应用的未来边界。

原文链接

智慧棱镜

03-27 12:58:21

分享至

打开微信扫一扫

内容投诉

生成图片

2.4万亿参数“最强文科生”，文心5.0正式版，你挺懂山东人啊？

2026年1月，文心大模型5.0正式版发布，参数量达2.4万亿，主打原生全模态能力。近三个月，其Preview版在全球大模型竞技场LMArena中多次拿下国产第一，1月8日视觉理解榜排名全球Top8，1月15日文本榜同样跻身全球Top8。文心5.0在创意写作、复杂指令遵循等任务中表现突出，综合评测超越Gemini-2.5-Pro和GPT-5-High等模型。其技术优势包括超大规模混合专家架构、全模态统一理解和生成能力，并通过百度飞桨实现高效训练与推理。目前，文心5.0已上线网页版、App及百度智能云千帆平台，应用场景涵盖电商直播、实时交互数字人等，展现出强大的产业落地潜力。

原文链接

幻彩逻辑RainbowLogic

01-23 22:15:24

分享至

打开微信扫一扫

内容投诉

生成图片

火线解析MiniMax招股书！全球领先大模型成本只有OpenAI 1%，果然拳怕少壮

2025年12月，上海大模型独角兽MiniMax通过港交所聆讯，正式启动IPO冲刺。成立仅四年，MiniMax累计融资超15亿美元，吸引米哈游、阿里巴巴等知名机构投资。招股书显示，公司以5亿美元成本实现全模态能力全球领先，仅为OpenAI支出的1%。技术上，MiniMax在文本、语音、音乐和视频领域均取得突破，其M2模型推理速度是Claude 3.5 Sonnet两倍，API价格却仅为其8%。财务方面，2024年营收达3052万美元，同比增长782.2%，2025年前9个月营收再涨175%，达5344万美元，海外收入占比超70%。尽管仍处亏损，但毛利率从2023年的-24.7%提升至2025年前9个月的23.3%。团队年轻化，平均年龄29岁，研发人员占比73.8%，高效管理与AI工具助力公司快速崛起。

原文链接

跨界思维

12-22 00:10:24

分享至

打开微信扫一扫

内容投诉

生成图片

30秒生成应用的AI助手来了！蚂蚁集团灵光App正式上线

2025年11月18日，蚂蚁集团正式发布全模态通用AI助手“灵光”，可在移动端实现30秒生成小应用，支持编辑、交互和分享。灵光首批上线三大功能：“灵光对话”提供逻辑清晰的可视化内容；“灵光闪应用”最快30秒生成个性化AI应用，如“溏心蛋时间计算器”；“灵光开眼”通过AGI相机技术实时解析物理世界。灵光采用全代码生成多模态内容，支持3D、音视频、图表等输出，并构建多智能体协作架构，提升用户体验。作为蚂蚁集团AGI战略的重要探索，灵光展现了从技术突破到场景落地的全链路能力，目前已登陆安卓与苹果应用商店。

原文链接

智能涌动

11-18 10:10:50

分享至

打开微信扫一扫

内容投诉

生成图片

业内首个：蚂蚁集团推出全模态通用 AI 助手“灵光”，自然语言 30 秒生成小应用

11月18日，蚂蚁集团推出业内首个全模态通用AI助手“灵光”，支持自然语言30秒生成小应用，可输出3D模型、音频、图标、动画、地图等多模态内容。首批上线三大功能：“灵光对话”提供语音朗读、3D模型、图表生成等可视化答案；“灵光闪应用”快速生成交互式小工具；“灵光开眼”赋予手机智能探索能力，支持文生图、图生视频等创作。目前已登陆安卓平台，适用于办公、学习及生活场景，为用户提供高效便捷的AI体验。

原文链接

Nebula

11-18 10:09:40

分享至

打开微信扫一扫

内容投诉

生成图片

百度李彦宏发布文心大模型 5.0：参数规模超 2.4 万亿，原生全模态

11月13日，在2025百度世界大会上，百度创始人李彦宏正式发布文心大模型5.0。该模型参数规模超2.4万亿，采用自回归统一架构和超稀疏混合专家架构，是新一代原生全模态大模型，支持理解与生成一体化。文心大模型5.0在全模态理解、创意写作、智能体规划、指令遵循等方面表现优异，尤其在语言、视觉理解、音频理解及视觉生成等测试中表现突出。百度现场演示了其在视频理解、视频生成（如《甄嬛传》片段二创）以及代码编写方面的能力，并表示模型持续学习进化中。目前，文心大模型5.0已上线百度千帆平台，用户可登录调用。

原文链接

梦境编程师

11-13 12:00:45

分享至

打开微信扫一扫

内容投诉

生成图片

阿里开源全模态大模型Qwen3-Omni 可像人类一样听说写

9月24日，阿里巴巴发布全模态预训练大模型Qwen3-Omni系列。该模型在36个音视频基准测试中，22项达SOTA水平，32项取得开源模型最佳效果，语音识别、音频理解与对话能力媲美Gemini2.5-Pro。Qwen3-Omni支持全模态输入输出，通过多模态混合训练实现“听”“说”“写”能力，预训练采用单模态与跨模态数据结合。其在音频、音视频能力突出的同时，文本与图像性能保持稳定，首次实现业内这一综合训练效果。

原文链接

AI创想团

09-24 16:50:21

分享至

打开微信扫一扫

内容投诉

生成图片