
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
9月26日,斑马智行在2025云栖大会上全球首发全模态端侧大模型实车方案Auto Omni,独家合作通义及高通。该方案具备全模态感知、全时空记忆和全场景服务能力,支持90%场景断网使用,将助力车企实现智能座舱从指令交互到主动服务的升级。Auto Omni已与国内头部车企定点合作,预计2026年量产。斑马智行还联合网易云音乐等生态伙伴发起“AI车载平台服务联盟”,涵盖数字娱乐、本地生活等场景服务,并率先融合阿里云Qwen3-Omni模型。阿里巴巴正推进3年3800亿元AI基建计划,为技术发展提供强大支持。
原文链接
9月26日,在2025云栖大会上,斑马智行联合阿里通义及高通全球首发全模态端侧大模型实车方案Auto Omni。该方案历时15000小时研发,具备全模态感知、全时空记忆、全场景服务能力,支持独家Qwen Omni定制与高通8397平台适配,预计2026年量产。会上还发起行业首个“AI车载平台服务联盟”,整合网易云音乐、喜马拉雅等生态伙伴,覆盖数字娱乐、本地生活、车辆服务三大场景。阿里巴巴CEO吴泳铭透露,阿里正推进3年3800亿元AI基础设施计划,并发布多款新模型,斑马智行率先接入Qwen3-Omni,推动智能座舱体验升级。
原文链接
9月24日,阿里巴巴发布全模态预训练大模型Qwen3-Omni系列。该模型在36个音视频基准测试中,22项达SOTA水平,32项取得开源模型最佳效果,语音识别、音频理解与对话能力媲美Gemini2.5-Pro。Qwen3-Omni支持全模态输入输出,通过多模态混合训练实现“听”“说”“写”能力,预训练采用单模态与跨模态数据结合。其在音频、音视频能力突出的同时,文本与图像性能保持稳定,首次实现业内这一综合训练效果。
原文链接
8月14日,字节跳动Seed团队发布并开源全模态PyTorch原生训练框架VeOmni。该框架采用以模型为中心的分布式训练方案,大幅降低工程开销,将数周的开发时间缩短至几天。相比传统框架如Megatron-LM需要一周以上研发,VeOmni仅需一天即可完成模型代码构建并开启训练任务,工程耗时压缩90%以上。实验显示,基于VeOmni,300亿参数的全模态MoE模型在128张卡上训练吞吐量超2800 tokens/sec/GPU,并支持160K超长上下文序列。目前论文与代码已公开,GitHub Star数超500。
原文链接
8月14日,字节跳动Seed团队发布并开源了全模态PyTorch原生训练框架VeOmni。该框架采用以模型为中心的分布式训练方案,将复杂的分布式并行逻辑与模型计算解耦,为全模态模型提供高效的并行训练支持。这一创新能够显著降低工程开销,提升训练效率和扩展性,将原本需要数周的工程开发时间缩短至几天。VeOmni的推出为开发者提供了更便捷、高效的工具,助力全模态模型的研究与应用。
原文链接
百度推出真·AI相机,拍照存储管理一步到位
百度网盘、文库联合发布“真·AI相机”,集拍照、存储、管理于一体。“即拍即存”功能让照片自动归档至云相册,避免手机存储不足问题。智能分类管理使用户可通过语音描述快速检索目标图片。
AI相机具备多种实用技能:秒变美颜相机,修图效果自然;拍摄花鸟鱼虫时...
原文链接
6月10日,百度AI Day开放日上,百度网盘与文库联合发布行业首款‘拍存管一体’的AI相机,实现全模态输入、处理、输出的完整AI能力。该相机已上线百度网盘APP,支持即拍即存、智能扫描、修图、管理等功能,覆盖生活、学习、工作全场景。例如,生活场景下可进行人像美化、万物识别;学习场景支持拍照解题、错题整理;工作场景则提供文件扫描、翻译等服务。此外,百度文库推出的GenFlow超能搭子2.0升级版,具备多智能体协作能力,可生成多模态内容并支持后链路编辑。截至目前,百度文库MAU达9700万,拥有14亿专业内容资源;百度网盘APP MAU超1.5亿,居国内总榜首位,展现AI时代国民级产品的价值。
原文链接
腾讯计划发布首个全模态模型混元-O,瞄准通用人工智能(AGI),预计今年6月上线端到端语音通话模型Hunyuan-Voice。混元团队以语言模型为核心,探索多模态融合,目标是打造具备自主学习和推理能力的世界模型。腾讯混元已在多个领域取得进展,TurboS模型在权威评测中排名全球前八,理科推理等能力显著提升。腾讯正加大AI投入,2024年研发投入达706.86亿元,过去七年累计超3900亿元。AI落地方面,腾讯元宝接入DeepSeek-R1模型,并支持多业务场景,微信搜索也整合了混元和DeepSeek能力。腾讯计划在AI智能体和商业化落地领域与阿里通义、字节豆包竞争,尤其聚焦“AI+云”平台。
原文链接
以下是原文
正文:百川智能于1月26日宣布上线开源全模态模型Baichuan-Omni-1.5。该模型支持文本、图像、音频和视频的全模态理解,并具备文本和音频的双模态生成能力。据官方称,Baichuan-Omni-1.5在视觉、语音及多模态流式处理等方面优于GPT-4o mini,尤其在多模态医疗应用领域表现突出。模型采用端到端解决方案,支持多语言对话和音视频实时交互。在视频理解能力方面,通过多个关键环节优化,性能大幅超越GPT-4o mini。模型结构上,支持多种模态输入并通过Text Tokenizer和Audio Decoder同时生成文本和音频。百川智能构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的数据库。开源地址:
原文链接
12月16日,无问芯穹宣布开源全球首款端侧全模态理解模型Megrez-3B-Omni,该模型能处理图像、音频、文本三种模态数据。在图像理解方面,它在多个主流测试集中表现优异;在文本理解方面,它在多个权威测试集中达到最优精度;在语音理解方面,支持中英语音输入及复杂多轮对话。此外,其单模态版本Megrez-3B-Instruct在推理速度上比同类模型快300%。相关资源已上传至Github、HuggingFace等平台。
原文链接
加载更多

暂无内容