综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月5日,腾讯正式发布自研AI大模型混元2.0(Tencent HY 2.0),包括HY 2.0 Think和HY 2.0 Instruct版本。该模型采用混合专家架构,总参数达406B,激活参数32B,支持256K上下文窗口,在复杂推理场景中表现优异,稳居国内第一梯队。相比上一版本,新模型在数学、科学、代码及指令遵循等领域显著提升,尤其在IMO-AnswerBench、HMMT2025等权威测试中取得一流成绩。此外,通过强化学习策略优化,其效率和质感大幅提高,单位token智能密度处于业界领先水平。目前,HY 2.0已接入腾讯元宝、ima等应用,并上线腾讯云API供用户使用,相关技术将逐步开源。
原文链接
2025年11月25日,腾讯混元宣布开源全新OCR模型HunyuanOCR。该模型参数仅为1B,基于混元原生多模态架构开发,具备高效与精准的文字识别能力。这一开源举措为开发者提供了更便捷的工具,助力多模态技术应用拓展。
原文链接
11月25日,腾讯混元宣布开源全新OCR模型HunyuanOCR,参数仅1B,多项核心能力达SOTA水平。该模型依托混元原生多模态架构,支持端到端推理,在复杂文档解析、文字检测与识别等任务中表现优异,如在OmniDocBench测评中获94.1分,超越谷歌Gemini3-pro;在OCRBench榜单上以860分领先3B以下参数模型。此外,HunyuanOCR支持14种小语种翻译,适用于票据字段抽取、视频字幕识别、拍照翻译等场景,并斩获ICDAR2025端到端文档翻译比赛小模型赛道冠军。模型已开源,可通过GitHub、HuggingFace等平台获取和体验。
原文链接
11月13日,腾讯混元图像3.0正式上线国内最大AI内容创作平台LiblibAI,并同步推出腾讯优图视频特效模型Youtu-Video FX。混元图像3.0参数规模达80B,是首个开源工业级原生多模态生图模型,官方称其为“效果最好、参数量最大”的开源模型,可对标业界头部闭源模型。该模型具备常识推理能力,支持解析千字复杂语义并生成长文本文字,适用于多种创意场景。作为今年5月发布的2.0版本升级版,3.0在画质和功能上进一步优化,此前已实现毫秒级响应与超写实画质。用户可通过LiblibAI平台体验相关功能。
原文链接
10月22日,腾讯混元发布并开源混元世界模型1.1版本(WorldMirror)。新版本支持多视图及视频输入,单卡即可部署,可秒级生成3D世界。相比7月发布的1.0版本,1.1版突破了仅支持文本或单图输入的局限,首次实现多模态先验注入与多任务统一输出,支持点云、深度、相机等多种3D几何预测。模型已完全开源,开发者可通过GitHub一键部署,普通用户也可在HuggingFace Space在线体验实时3D渲染功能。相关资源已在官网及技术报告中提供。
原文链接
10月5日,腾讯混元图像3.0在AI文生图权威榜单LMArena登顶第一,击败Nano、Banana等强劲对手,成为全球效果最佳的开源生图模型。其凭借三大优势脱颖而出:一是具备推理能力,将逻辑融入画面;二是精准渲染中英文长文本,细节表现优异;三是拥有高审美水平,生成图像真实且符合用户需求。此前,9月初发布的混元图像2.1已是最佳开源模型。目前,腾讯混元已构建起覆盖语言、图像、视频、3D等多模态开源矩阵,社区衍生模型超3000个,其中3D系列下载量超260万,曾获全球3D生成榜单第一。未来还将推出图生图、图像编辑等功能版本。
原文链接
2025年10月5日,腾讯混元图像3.0登顶全球AI文生图榜单首位,超越谷歌Nano Banana、字节Seedream等强劲对手,在国际权威竞技场LMArena的26个大模型中稳居第一。该模型采用原生多模态架构,参数规模达80B,是目前最大的开源生图模型,支持文字、图片、视频与音频多模态处理。其语义理解能力大幅提升,可生成高质量图像,如中秋节海报、火焰猫咪等创意作品,并在多项技术指标上领先行业。此外,混元3.0开源且提供多种资源链接,引发全民体验热潮,热度持续飙升。
原文链接
10月5日,腾讯混元图像3.0模型在国际大模型竞技场LMArena的文生图榜单中,凭借全球用户的“盲测”投票,超越26个顶尖模型荣登第一。LMArena由美国加州大学伯克利分校推出,采用基于人类真实偏好的匿名投票机制,是目前最权威的AI模型评估平台之一。混元图像3.0于9月28日发布,现已开放文生图能力,并计划后续推出图生图、图像编辑等功能。该模型不仅能生成复杂文本、漫画、表情包和科普插画,还能大幅提升视觉创作者效率,使无美术功底的用户也能轻松创作生动内容。
原文链接
9月28日,腾讯混元推出并开源了“混元图像 3.0(HunyuanImage 3.0)”模型,参数规模达80B。该模型为首个开源工业级原生多模态生图模型,官方称其效果可对标业界头部闭源模型。新版本支持复杂语义解析和长文本生成,是5月发布的2.0版本的升级版,此前版本已实现毫秒级响应与超写实画质。腾讯混元系列还开源了3D生成模型、定制化图像插件InstantCharacter及多模态视频工具HunyuanCustom,构建了完整的AIGC技术矩阵。
原文链接
9月26日,腾讯发布并开源了混元3D生成模型家族新成员:混元3D-Omni和混元3D-Part。混元3D-Omni是业界首个支持多条件控制的3D生成框架,可融合骨骼、点云、边界框和体素等控制条件,精细调节物体几何结构、姿态等特性,适用于游戏建模、动画制作等领域。混元3D-Part由P3-SAM分割模型和X-Part组件生成模型组成,支持50多种组件自动生成,分解和生成3D模型像“玩乐高”一样简单。两款模型均已全面开源、免费使用,并上线腾讯混元3D创作引擎,便于学术研究与工业部署。开源地址已公布,包括代码和权重下载链接。
原文链接
加载更多
暂无内容