综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年12月,英伟达与香港大学联合开源了Orchestrator-8B模型,该模型以仅8B参数量超越GPT-5,在权威测试HLE中得分37.1%,高于GPT-5的35.1%,成本却仅为后者的1/2.5。其核心优势在于充当“工具主理人”,通过协调顶级大模型、专业工具及实用助手(如GPT-5、Qwen2.5-Math、代码解释器等)实现高效问题解决。训练方法采用强化学习和定制数据集ToolScale,兼顾效果、效率与用户偏好。Orchestrator-8B在HuggingFace上广受好评,位列热门模型前五。研究团队包括香港大学博士苏弘锦与英伟达科学家Shizhe Diao。项目及相关资源已开源,展示出小模型在AI领域的潜力。
原文链接
12月5日,腾讯正式发布自研AI大模型混元2.0(Tencent HY 2.0),包括HY 2.0 Think和HY 2.0 Instruct版本。该模型采用混合专家架构,总参数达406B,激活参数32B,支持256K上下文窗口,在复杂推理场景中表现优异,稳居国内第一梯队。相比上一版本,新模型在数学、科学、代码及指令遵循等领域显著提升,尤其在IMO-AnswerBench、HMMT2025等权威测试中取得一流成绩。此外,通过强化学习策略优化,其效率和质感大幅提高,单位token智能密度处于业界领先水平。目前,HY 2.0已接入腾讯元宝、ima等应用,并上线腾讯云API供用户使用,相关技术将逐步开源。
原文链接
12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)。新模型推理能力显著提升,上下文关键词召回率提高20%,通过深度理解上下文实现更精准的语音识别。新增多模态视觉识别功能,支持单图和多图输入,进一步提升文字识别准确性。此外,该模型支持13种海外语种,包括日语、韩语、德语和法语等,满足国际化需求。此次升级为语音识别技术带来全新突破,助力多场景应用发展。
原文链接
12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),新增多模态视觉识别功能,支持“听懂字”和“看懂图”,大幅提升文字与场景识别精准度。模型优化了上下文推理能力,关键词召回率提升20%,并支持日语、韩语、德语、法语等13种外语识别。通过深度理解上下文及图像辅助,可精准判断易混淆词汇,如搜拍场景中的“滑鸡”与“滑稽”。此外,模型基于PPO强化学习方案,无需依赖历史记录即可泛化理解动态交互场景,适用于图片创作和跨语言交流。目前,该模型已上线火山方舟体验中心,并对外提供API服务。
原文链接
12月5日,OpenAI宣布开放其最强编程模型GPT-5.1-Codex-Max的API访问权限,定价与GPT-5保持一致(输入1.25美元/百万token,输出10美元/百万token)。该模型专为长时间运行和复杂编程任务设计,支持超长上下文处理,可连续工作超24小时。性能方面,其在SWE-Bench Verified测试中得分77.9%,优于常规版的73.7%。此外,GPT-5.1-Codex-Max针对Windows环境优化,适合多平台开发者使用。目前,Cursor、GitHub Copilot等主流工具已完成集成,Pro及以上订阅用户可直接切换使用。
原文链接
2025年12月5日,谷歌正式上线其最新模型Gemini 3 Deep Think,主打复杂推理能力,可将草图转化为3D场景、生成精细程序等。该模型在多项基准测试中表现优异,例如Humanity’s Last Exam准确率达41%,ARC-AGI-2代码执行准确率高达45.1%,远超GPT-5 Pro和Gemini 3 Pro。然而,其仅向Ultra会员开放,月费249.9美元(约合人民币1800元),引发用户不满,Pro用户尤其批评缺乏试用机会。与此同时,开源模型DeepSeek-V3.2近期同样取得显著成绩,且完全免费,进一步凸显谷歌高价策略的争议性。行业评论认为,开源模型正对闭源产品形成冲击,谷歌此举或面临市场冷遇。
原文链接
2025年,非北上广深、非985高校的大学生涌入大厂AI数据标注流水线,从事基础性兼职工作。他们通过抢单完成图片标注、文本纠错等任务,月收入约1000-2000元。这些学生分散在成都、郑州、武汉等地,利用课余时间参与AI训练,试图借此积累经验、提升简历竞争力。尽管工作琐碎且收入有限,部分学生认为这是通往AI领域的敲门砖,如郑州某高校学生张莹凭借相关经历获得头部教培机构实习机会。然而,随着兼职平台竞争加剧,抢单难度增加,收入吸引力下降。与此同时,AI技术快速发展带来的就业焦虑也推动更多学生加入这一浪潮,成为智能时代庞大流水线上的一员。
原文链接
12月3日,科技媒体Wccftech报道,英伟达GB200 NVL72 AI服务器在‘混合专家’模型测试中取得重大突破,性能较上一代HGX 200提升10倍。测试基于Deepseek-R1等开源大语言模型,验证了其显著的计算效率。GB200采用72芯片配置、30TB共享内存及第五代NVLink技术,通过协同设计和全栈优化(如NVIDIA Dynamo框架)大幅提升专家并行计算能力。此外,新数据格式NVFP4进一步提升了性能与精度。这一进展解决了MoE模型扩展瓶颈,满足AI算力需求,巩固了英伟达在AI服务器市场的领导地位。
原文链接
2025年,大模型竞争进入新阶段,但基准测试公信力下降,实际使用常令人失望。业内揭露了基准测试作弊、测试集泄露和排行榜操纵等问题。Scale AI 2024年11月论文显示,许多开源模型在新测试基准下的表现大幅下滑。Cohere 2025年4月指出知名评测平台偏向大公司,Meta等私下多次测试模型。此外,数据集污染和刷榜现象普遍,导致基准测试不再反映真实性能,成为厂商营销工具。专家认为现有基准测试体系存在结构性缺陷,过于静态和单一化。新的动态测试集逐渐兴起,企业更多依赖私有基准测试集,关注模型稳定性、迭代速度和开源程度。赵海教授指出,未来AGI系统将无需依赖人工标注,而主流大模型的核心问题仍是幻觉和指令遵循能力。
原文链接
12月4日,小米集团总裁卢伟冰在抖音回应罗福莉加入及AI新战略。卢伟冰透露,小米已在前几个季度加大对AI的投入,大模型和应用进展远超预期,认为AI与物理世界结合是智能科技未来方向。他还表示,小米渴望优秀人才,并提供良好发展平台。此前,博主爆料罗福莉已加入小米Xiaomi MiMo大模型团队,薪酬达千万元级别。值得一提的是,小米与北京大学联合署名的AI论文于10月发布。此外,罗福莉将在12月17日举办的2025小米‘人车家全生态’合作伙伴大会首秀,地点在北京。
原文链接
加载更多
暂无内容