端到端 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

轻舟智航重回高端局： L2+量产超百万，城市NOA量产下放10万级

2026年初，轻舟智航宣布L2+智能驾驶系统量产超百万辆，并将城市NOA功能下放至10万元级车型，成为行业焦点。公司以地平线J6M芯片为基础，仅用128TOPS算力实现高效、安全的城市NOA体验，首批覆盖理想AD Pro4.0车主。轻舟智航CEO于骞表示，其技术前瞻性与Waymo背景密不可分，同时通过数据驱动和端到端方案，率先完成从L2+到L4的无缝衔接。此外，轻舟进军无人物流车领域，与奇瑞合作年内量产，展现多场景适配能力。在自动驾驶赛道‘收敛’趋势下，轻舟以低成本、高效率方案占据优势，被业内视为‘自动驾驶赛道DeepSeek’，手握通往物理AI时代的‘早鸟票’。

原文链接

阿达旻

01-23 21:14:01

城市NOA

端到端

轻舟智航

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义发布端到端语音交互模型 Fun-Audio-Chat，能猜出你的心情

12月23日，阿里通义发布端到端语音交互模型Fun-Audio-Chat，同时开源Fun-Audio-Chat 8B版本。该模型在多个榜单中同尺寸模型排名第一，性能优于GLM4-Voice、Kimi-Audio等竞品。技术亮点包括端到端S2S架构，无需多模块拼接；双分辨率设计降低GPU计算开销近50%；以及基于百万小时多任务数据训练，覆盖真实场景如情感识别和工具调用。Fun-Audio-Chat可感知用户情绪，从语气、语速等细节推测心情，并提供类人化对话体验，还能通过自然语音指令完成复杂任务。项目已上线GitHub、HuggingFace等平台供开发者使用。

原文链接

E-Poet

12-23 18:53:47

Fun-Audio-Chat

情绪识别

端到端语音交互

分享至

打开微信扫一扫

内容投诉

生成图片

阿里发布端到端语音交互模型Fun-Audio-Chat

12月23日，阿里巴巴发布新一代端到端语音交互模型Fun-Audio-Chat，并宣布开源8B模型权重、推理代码及Function Call接入示例。这一模型由通义大模型团队推出，旨在提升语音交互的效率与自然度，为开发者提供更强大的技术支持。此次开源举措将进一步推动语音交互技术的创新与应用落地，助力行业生态发展。

原文链接

智能涌动

12-23 17:52:22

Fun-Audio-Chat

端到端语音交互模型

阿里

分享至

打开微信扫一扫

内容投诉

生成图片

气象人工智能模型“风源”雄安首发，直接读取卫星、雷达、气象站等数据

12月19日，中国气象局在雄安发布全新气象人工智能模型“风源”v1.0，该模型可直接读取卫星、雷达和气象站实时观测数据，自主分析并生成全球气象预报。相比传统依赖数值模式的AI模型，“风源”实现从观测到服务的“端到端”突破，显著提升预报精准度与效率。其采用“邻域注意力”和“信息融合中枢”技术，强化区域关联与数据交互能力，展现优秀业务应用潜力。同时，“风清”“风雷”“风顺”等2024年发布的模型完成技术升级。“风源”由中国气象科学研究院等多单位联合研发，主要服务于气象科研与业务，助力“一带一路”沿线国家气象发展。

原文链接

量子思考者

12-20 21:06:06

气象人工智能

端到端

风源模型

分享至

打开微信扫一扫

内容投诉

生成图片

中山大学王广润：大模型的微调只是对空间建模的微调 | GAIR 2025

2025年12月13日，在第八届GAIR全球人工智能与机器人大会上，中山大学王广润博士分享了《创新基础模型，强化物理世界建模》的主题演讲。他提出通过新一代AI架构赋能物理世界建模的精准化与高效化，强调空间建模模块具备自适应能力，大模型微调仅需调整少量参数即可适配新环境。他还介绍了团队研发的具身大模型E0，采用全新离散扩散方法，在精细操作和复杂任务中表现优异。此外，团队搭建了一个无人化物理智能测评平台，支持远程调用实验室机器人完成真实场景评测，推动具身智能领域的公平性与实用性发展。

原文链接

智慧轨迹

12-19 11:49:16

具身智能

物理世界建模

端到端

分享至

打开微信扫一扫

内容投诉

生成图片

混元OCR模型核心技术揭秘：统一框架、真端到端

2025年11月，腾讯混元大模型团队正式发布并开源HunyuanOCR模型，这是一款商业级、轻量（1B参数）的OCR专用视觉语言模型，采用原生ViT和轻量LLM架构。其感知能力（文本检测、复杂文档解析）优于所有公开方案，语义能力（信息抽取、翻译）表现出色，荣获ICDAR 2025 DIMT挑战赛小模型赛道冠军，并在OCRBench上取得3B以下模型SOTA成绩。该模型实现三大突破：全能与高效统一、极简端到端架构、数据驱动与强化学习创新。目前，模型已在Hugging Face趋势榜排名前四，GitHub标星超700，并被vllm官方团队接入。项目提供高性能部署方案，助力科研与工业落地。

原文链接

小阳哥

11-30 11:05:21

强化学习

混元OCR

端到端

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

11月13日，腾讯总裁刘炽平在Q3财报电话会上透露，微信计划推出AI智能体，帮助用户完成多种任务。同日，阿里被曝将对通义APP进行全面改革，更名为“Qwen”，并整合购物功能以争夺C端市场。谷歌则推出全新AI购物功能，覆盖商品搜索到结账的全流程。三大巨头纷纷布局AI领域，标志着AI技术正从单一功能向跨场景、端到端闭环服务演进。这一系列动作显示，互联网巨头正在加速争夺AI时代的用户服务控制权，竞争已进入全面混战阶段。

原文链接

智慧棱镜

11-14 16:02:06

AI购物

微信智能体

端到端闭环

分享至

打开微信扫一扫

内容投诉

生成图片

百度地图发布小度想想 2.0，行业首个深度融合端到端语音语言大模型的出行智能体

9月27日至29日，第七届世界新能源汽车大会在海南海口举办期间，百度地图发布全新出行智能体——小度想想2.0。这是行业首个深度融合端到端语音语言大模型的智能出行助手。其核心优势包括：引入独家地图出行知识库与百度实时搜索数据，提升复杂意图理解能力；构建跨端记忆体，支持多场景无缝切换；升级端到端跨模态交互，实现多维度信息高效协作。实际应用中，小度想想2.0可无缝衔接手机与车机操作，记忆用户近期习惯与长期偏好，并提供个性化推荐。目前，该产品已面向智能汽车全面开放。

原文链接

DreamCoder

09-29 18:13:48

小度想想2.0

端到端语音语言大模型

跨端记忆体

分享至

打开微信扫一扫

内容投诉

生成图片

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio，对话自然度、交互适配达拟人化水准

9月19日，小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio，首次在语音领域实现基于ICL的少样本泛化。该模型通过创新预训练架构和上亿小时数据，在自然度、情感表达和交互适配方面达到拟人化水准。其突破性创新包括：证明语音无损压缩预训练可“涌现”跨任务泛化性，并开源完整语音预训练方案，包括Tokenizer、模型结构等。目前，模型已在Huggingface和Github平台开源，参数量达1.2B，支持音频重建和音频转文本任务。

原文链接

AGI探路者

09-19 11:13:29

Xiaomi-MiMo-Audio

开源

端到端语音大模型

分享至

打开微信扫一扫

内容投诉

生成图片

阶跃星辰发布端到端语音大模型 Step-Audio 2 mini，多个基准测试取得 SOTA 成绩

2025年9月1日，阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini，并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成，支持语音原生Tool Calling能力，可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio，在音频理解、语音识别、翻译和对话场景中表现突出。例如，在中英互译任务上，其CoVoST 2和CVSS评分分别达39.3和29.1；语音识别任务中，中文CER为3.19，英语WER为3.50，领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强，Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题，现已上线阶跃星辰开放平台并开源。

原文链接