小模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek开源全新OCR模型！弃用CLIP改用Qwen轻量小模型，性能媲美Gemini-3 Pro

2026年1月，DeepSeek开源全新OCR模型DeepSeek-OCR 2，专注于将PDF精准转换为Markdown。相比去年10月发布的初代模型，新版本弃用CLIP组件，改用轻量化的Qwen2-0.5B语言模型构建DeepEncoder V2，实现基于语义动态重排视觉标记的功能。这一升级解决了传统“光栅扫描”逻辑在复杂版面中的语义连贯性问题，并通过双流注意力机制提升性能。在OmniDocBench v1.5基准测试中，DeepSeek-OCR 2性能达到91.09%，较基线提升3.73%，效果媲美Gemini-3 Pro。此外，模型采用三阶段训练流程，优化数据采样与标签简化策略。项目已开源，代码和论文可在GitHub与HuggingFace获取。

原文链接

蝶舞CyberSwirl

01-28 15:19:45

DeepSeek-OCR 2

Qwen轻量小模型

视觉编码

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达 4B 小模型击败 GPT-5 Pro！单任务成本仅后者 1/36

2025年12月，英伟达4B小模型NVARC在ARC-AGI 2竞赛中以27.64%的成绩击败GPT-5 Pro（18.3%），登顶榜首。其单任务成本仅20美分，约为GPT-5 Pro的1/36。NVARC采用零预训练深度学习方法，规避了领域偏见和数据依赖问题，并通过大规模合成高质量数据优化模型，将昂贵计算移至离线完成。团队利用改进版ARChitects方法和LoRA微调技术，使模型快速适应全新规则的任务。尽管参数量小，但其性能在特定领域不逊色于大模型，且具备成本、速度和适配性优势。这一突破展示了小模型在特定任务中的潜力，为AI开发提供了新思路。

原文链接

智慧棱镜

12-08 16:36:14

小模型

英伟达

零预训练

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达巧用8B模型秒掉GPT-5，开源了

2025年12月，英伟达与香港大学联合开源了Orchestrator-8B模型，该模型以仅8B参数量超越GPT-5，在权威测试HLE中得分37.1%，高于GPT-5的35.1%，成本却仅为后者的1/2.5。其核心优势在于充当“工具主理人”，通过协调顶级大模型、专业工具及实用助手（如GPT-5、Qwen2.5-Math、代码解释器等）实现高效问题解决。训练方法采用强化学习和定制数据集ToolScale，兼顾效果、效率与用户偏好。Orchestrator-8B在HuggingFace上广受好评，位列热门模型前五。研究团队包括香港大学博士苏弘锦与英伟达科学家Shizhe Diao。项目及相关资源已开源，展示出小模型在AI领域的潜力。

原文链接

超频思维站

12-06 14:32:11

Orchestrator-8B

小模型

工具编排

分享至

打开微信扫一扫

内容投诉

生成图片

聚焦手机AI“超级入口”，中兴Nebula小模型让手机秒变“小秘”？

2025年9月14日，美团推出首个AI Agent支持“一句话点餐”，标志着GUI Agent技术进入实用化阶段。同年10月17日，中兴通讯Nebula-GUI模型在AgentCLUE-mobile测评中斩获总榜银牌，总分84.38，尤其在自动点餐、订票等复杂任务中表现优异。该模型已商用在努比亚Z70 Ultra等手机上，覆盖30余款主流APP，常用场景准确率超90%。中兴通过自研端到端数据制备系统和双层强化学习技术，显著提升了模型的感知、推理与执行能力，未来计划扩展至购物比价、旅游出行等更多场景。这一进展让“手机变私人小秘书”从概念走向现实，推动移动智能服务赋能多行业。

原文链接

新智燎原

11-04 15:19:17

GUI Agent

中兴Nebula小模型

手机AI超级入口

分享至

打开微信扫一扫

内容投诉

生成图片

Thinking Machine新研究刷屏！结合RL+微调，小模型训练更具性价比

2025年10月，Thinking Machine发布了一项引发热议的研究成果，提出了一种结合强化学习和微调的创新方法——在线策略蒸馏（On-Policy Distillation）。该方法通过融合自主探索与密集监督，显著提升了小模型训练的性价比。实验表明，这种方法可将数学能力训练效率提升50-100倍，并有效解决AI‘灾难性遗忘’问题。例如，仅用150步训练便将8B小模型性能从60分提升至70分，计算成本降低9-30倍。此外，该技术还能在注入新知识的同时恢复通用能力，为AI终身学习提供了技术支持。研究由前OpenAI研究员Kevin Lu主导，目前已公开论文链接供进一步了解。

原文链接

元界筑梦师

10-28 10:41:47

在线策略蒸馏

小模型训练

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

AI 的下一个战场：小模型崛起

AI 的下一个战场：小模型崛起大模型热潮正逐渐降温，小模型开始崭露头角。八月初，腾讯推出“混元系列小模型”，阿里随后发布两款通义Qwen3-4B，OpenAI更开源了gpt-oss-20B等小模型。头部玩家的集体转向表明，端侧小模型正重回舞台中央。小模型并非新概念，但这次回归的是真正落地...

原文链接

代码编织者

09-05 21:26:34

小模型

端侧智能

面壁智能

分享至

打开微信扫一扫

内容投诉

生成图片

苹果看上的公司，靠量子「邪修」给模型瘦身

2025年3月，西班牙AI初创公司Multiverse Computing完成2500万欧元A轮融资，估值从1.08亿美元升至5亿美元。该公司凭借核心技术CompactifAI，通过量子物理张量网络方法将大模型体积压缩80-95%，性能几乎无损，适用于端侧设备。2025年8月发布两款“史上最小模型”——‘苍蝇脑’（9400万参数）和‘鸡脑’（3.2亿参数），吸引苹果、三星等巨头洽谈合作。Multiverse成立于2019年，最初聚焦量子计算软件，2023年转向AI领域，踩中‘小模型’风口。尽管技术壁垒存疑，其压缩方案显著降低成本与能耗，推理速度提升4-12倍，费用节省50-80%。目前市场竞争激烈，Meta、谷歌等巨头及多家初创公司均布局小模型赛道。

原文链接

智能维度跳跃

09-02 18:36:33

Multiverse Computing

小模型

量子瘦身

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达新研究：小模型才是智能体的未来

英伟达新研究：小模型才是智能体的未来大模型虽强大，但并非万能。英伟达最新研究指出，在Agent任务中，小语言模型比大模型更具经济性和灵活性，尤其在处理重复性、专业化子任务时表现更优。网友实测也显示，6.7B参数的Toolformer在学会调用API后性能超越了175B的GPT-3，而7B参数的De...

原文链接

数据炼金师

08-19 08:54:39

大模型

小模型

智能体

分享至

打开微信扫一扫

内容投诉

生成图片

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

近日，由Transformer作者之一Llion Jones创立的Sakana AI推出了一种新方法，通过让教师模型模仿人类教师进行‘启发式’教学，显著提升了学生模型的推理能力。该方法中，教师模型不再从头解决问题，而是根据已知答案提供清晰的逐步解释。实验表明，7B规模的教师模型在训练学生模型方面优于671B的DeepSeek-R1，并能有效训练出4倍规模的学生模型。这种方法不仅提高了效率，还降低了成本，使小型模型也能承担教学任务。

原文链接

电子诗篇

06-25 14:30:13

7B小模型

强推理LLM

教学方法

分享至

打开微信扫一扫

内容投诉

生成图片

不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B

标题：不用千亿参数也能合成高质量数据！这个开源框架让小模型“组团逆袭”，7B性能直追72B 无需蒸馏任何大规模语言模型，小模型也能自给自足、联合提升？上海人工智能实验室与中国人民大学联合提出的GRA框架（Generator–Reviewer–Adjudicator）正是这样一种新范式。该方法以“...

原文链接

元界筑梦师

06-17 17:26:00

GRA框架

小模型

数据合成

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多