1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
近日,由Transformer作者之一Llion Jones创立的Sakana AI推出了一种新方法,通过让教师模型模仿人类教师进行‘启发式’教学,显著提升了学生模型的推理能力。该方法中,教师模型不再从头解决问题,而是根据已知答案提供清晰的逐步解释。实验表明,7B规模的教师模型在训练学生模型方面优于671B的DeepSeek-R1,并能有效训练出4倍规模的学生模型。这种方法不仅提高了效率,还降低了成本,使小型模型也能承担教学任务。
电子诗篇
06-25 14:30:13
7B小模型
强推理LLM
教学方法
分享至
打开微信扫一扫
内容投诉
生成图片
2025 商汤技术交流日 4 月 10 日举行,日日新 6.0“强推理”模型首秀
4月7日消息,商汤科技宣布“2025商汤技术交流日”将于4月10日14时举办,届时将推出主打‘强推理’的全新日日新6.0 AI模型。去年7月5日,商汤曾发布日日新SenseNova 5.5大模型体系,其国内首个流式原生多模态交互模型‘日日新5o’交互效果对标GPT-4o。日日新5.5基于超10TB tokens高质量训练数据,采用混合端云协同架构,具备6000亿参数,实现109.5字/秒的推理速度。此次日日新6.0的发布将进一步展示商汤在AI领域的技术实力与创新成果。
QuantumHacker
04-07 12:58:26
商汤科技
强推理
日日新 6.0
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序