1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
混元OCR模型核心技术揭秘:统一框架、真端到端
2025年11月,腾讯混元大模型团队正式发布并开源HunyuanOCR模型,这是一款商业级、轻量(1B参数)的OCR专用视觉语言模型,采用原生ViT和轻量LLM架构。其感知能力(文本检测、复杂文档解析)优于所有公开方案,语义能力(信息抽取、翻译)表现出色,荣获ICDAR 2025 DIMT挑战赛小模型赛道冠军,并在OCRBench上取得3B以下模型SOTA成绩。该模型实现三大突破:全能与高效统一、极简端到端架构、数据驱动与强化学习创新。目前,模型已在Hugging Face趋势榜排名前四,GitHub标星超700,并被vllm官方团队接入。项目提供高性能部署方案,助力科研与工业落地。
小阳哥
11-30 11:05:21
强化学习
混元OCR
端到端
分享至
打开微信扫一扫
内容投诉
生成图片
腾讯总裁剧透微信搭载智能体!阿里和谷歌也都开始互相伤害了
11月13日,腾讯总裁刘炽平在Q3财报电话会上透露,微信计划推出AI智能体,帮助用户完成多种任务。同日,阿里被曝将对通义APP进行全面改革,更名为“Qwen”,并整合购物功能以争夺C端市场。谷歌则推出全新AI购物功能,覆盖商品搜索到结账的全流程。三大巨头纷纷布局AI领域,标志着AI技术正从单一功能向跨场景、端到端闭环服务演进。这一系列动作显示,互联网巨头正在加速争夺AI时代的用户服务控制权,竞争已进入全面混战阶段。
智慧棱镜
11-14 16:02:06
AI购物
微信智能体
端到端闭环
分享至
打开微信扫一扫
内容投诉
生成图片
百度地图发布小度想想 2.0,行业首个深度融合端到端语音语言大模型的出行智能体
9月27日至29日,第七届世界新能源汽车大会在海南海口举办期间,百度地图发布全新出行智能体——小度想想2.0。这是行业首个深度融合端到端语音语言大模型的智能出行助手。其核心优势包括:引入独家地图出行知识库与百度实时搜索数据,提升复杂意图理解能力;构建跨端记忆体,支持多场景无缝切换;升级端到端跨模态交互,实现多维度信息高效协作。实际应用中,小度想想2.0可无缝衔接手机与车机操作,记忆用户近期习惯与长期偏好,并提供个性化推荐。目前,该产品已面向智能汽车全面开放。
DreamCoder
09-29 18:13:48
小度想想2.0
端到端语音语言大模型
跨端记忆体
分享至
打开微信扫一扫
内容投诉
生成图片
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,对话自然度、交互适配达拟人化水准
9月19日,小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio,首次在语音领域实现基于ICL的少样本泛化。该模型通过创新预训练架构和上亿小时数据,在自然度、情感表达和交互适配方面达到拟人化水准。其突破性创新包括:证明语音无损压缩预训练可“涌现”跨任务泛化性,并开源完整语音预训练方案,包括Tokenizer、模型结构等。目前,模型已在Huggingface和Github平台开源,参数量达1.2B,支持音频重建和音频转文本任务。
AGI探路者
09-19 11:13:29
Xiaomi-MiMo-Audio
开源
端到端语音大模型
分享至
打开微信扫一扫
内容投诉
生成图片
阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩
2025年9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成,支持语音原生Tool Calling能力,可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio,在音频理解、语音识别、翻译和对话场景中表现突出。例如,在中英互译任务上,其CoVoST 2和CVSS评分分别达39.3和29.1;语音识别任务中,中文CER为3.19,英语WER为3.50,领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强,Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题,现已上线阶跃星辰开放平台并开源。
代码编织者Nexus
09-01 15:21:09
SOTA
Step-Audio 2 mini
端到端语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
自己卷自己:理想汽车旗下 AI 助手理想同学 MindGPT 3.1 升级为端到端智能体模型,支持边想边搜
8月18日,理想汽车旗下AI助手理想同学宣布MindGPT 3.1升级为端到端智能体模型,支持边想边搜功能。新版本将智能体能力融入大模型,在推理过程中可同步调用工具,提供更快速、全面、准确的结果,每秒出字速度最高达200 tokens,较3.0版本提升近5倍。理想同学App于去年12月上线苹果App Store,今年3月网页版上线并接入DeepSeek-R1-0528最新模型,持续优化用户体验。
AI创意引擎
08-18 21:52:21
MindGPT 3.1
理想同学
端到端智能体模型
分享至
打开微信扫一扫
内容投诉
生成图片
世界机器人大会上什么都有,就是没什么共识
标题:世界机器人大会:技术路线的“非共识”之争 正文: 今年的世界机器人大会(WRC)上,机器人领域展现出多样化的产品形态和技术路线,但缺乏统一标准,形成了大量“非共识”。硬件设计分化出不同场景适配方案,软件算法则在VLA、端到端模型和仿真数据训练等方面分道扬镳。这种发散状态虽看似混乱,却是新兴...
DreamCoder
08-10 11:45:49
数据飞轮
端到端模型
非共识
分享至
打开微信扫一扫
内容投诉
生成图片
太逼真!豆包·播客模型来了:一句话生成「苏超联赛」播客,很懂13太保的梗
标题:一句话生成播客,豆包·播客模型太逼真了! 家人们,又一款有趣的AI来了——火山引擎发布了豆包·播客模型!只需一句话,就能生成高质量的播客内容。无论是实时热点讲解、超长文本概括,还是开放式话题反应,豆包·播客模型都能轻松应对。 例如,根据“亚朵酒店致歉”生成的播客,AI展现出清晰的态度和专业性;...
AGI探路者
06-09 17:30:11
AI播客
端到端语音交互
豆包模型
分享至
打开微信扫一扫
内容投诉
生成图片
中信建投:端到端训练开启Agent新范式 四月国产Agent迎集中发布潮
4月1日,中信建投指出,预训练大模型的边际收益因Scaling Law接近瓶颈,智能体(Agent)成为大模型厂商的新发力点。Agent技术历经三阶段演进:工作流+预训练模型、工作流+推理模型,再到端到端智能体+推理模型。第三代智能体代表如OpenAI Deep Research,展现出巨大潜力。得益于国产推理模型的支持,国产第三代智能体预计将在4月迎来集中发布,并展现强劲竞争力。
量子思考者
04-01 09:24:01
国产Agent
智能体
端到端训练
分享至
打开微信扫一扫
内容投诉
生成图片
智平方获数亿元Pre A+轮融资,两个月完成两轮数亿融资
3月6日,智平方宣布完成新一轮过亿元Pre A+轮融资,投资方包括敦鸿资产、云启资本和国投创盈等。智平方是国内最早探索端到端VLA技术路线的企业,2024年实现搭载端到端VLA具身大模型的智能机器人商业化。2025年初,智平方在两个月内迅速完成两轮数亿融资。本轮融资将用于加速端到端VLA模型迭代及推动具身智能机器人商业化。智平方自主研发的AI2R Brain具身大模型已部署于Alpha Bot系列机器人,最新产品Alpha Bot 1S融合了轮式设计和高自由度机械臂。智平方已签约多家国内外一线车企、高端制造企业及互联网巨头,并实现数千万级别收入。智平方创始人郭彦东博士曾任小鹏汽车和OPPO首席科学家,团队汇集了AI、机器人和智能终端领域的顶尖人才。
AI思维矩阵
03-07 09:39:55
Pre A+轮融资
智平方
端到端VLA
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序