
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年8月,欧洲版OpenAI——Mistral被曝其最新模型疑似蒸馏自DeepSeek,却伪装成强化学习成果并歪曲基准测试结果。爆料来自一名离职员工,揭露公司多项黑幕。今年6月已有博主通过‘语言指纹’分析发现Mistral-small-3.2与DeepSeek-v3高度相似,质疑为蒸馏结果。蒸馏虽非违规,但Mistral未公开此事实,被指误导公众。Mistral成立于2023年,估值已高达100亿美元,以开源和多语言处理能力闻名,近期发布新模型Mistral Medium V3.1,但官方对此事暂无回应。
原文链接
2025年7月26日,AI教父Geoffrey Hinton在中国首次发表演讲,探讨数字智能是否会取代生物智能。他回顾了AI发展的两种范式:符号主义与连接主义,并指出大语言模型的原理与人类语言理解方式类似,甚至认为人类可被视为一种大语言模型。Hinton强调AI在知识传播和复制上的优势,但也警示其潜在风险,呼吁全球合作确保AI安全。同场,MiniMax创始人闫俊杰分享了‘每个人的人工智能’主题,提出AI正在成为普惠工具,降低创意生产门槛,提升个人能力。他认为AI不会被少数公司垄断,而是通过开源和多模型架构实现普及化,未来AGI将属于全人类。
原文链接
标题:纯蒸馏模型 SOTA 突破!训练成本降低50倍,数据已开源
a-m-team 发布新论文,介绍下一代推理模型的小进展。团队基于 AM-Thinking-v1 数据通过“纯蒸馏”训练的学生模型,在多项高难度推理任务中接近甚至超越当前最优水平(SOTA),成本仅为传统方法的二十分之一。
论文《...
原文链接
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
克雷西 | 发自凹非寺
量子位 | 公众号 QbitAI
Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!
- 采用双模式架构,一个模型同时支持推理和非推理任务,自动切换。
- 训练和微调分段式策略,逐步构...
原文链接
CVPR满分论文:2080Ti搞定数据蒸馏,GPU仅需2G,出自上交大“最年轻博导”团队
只要一块6年前的2080Ti,就能完成大模型数据蒸馏?来自上交大EPIC实验室等机构的研究提出一种新方法——NFCM,显存占用仅1/300,速度提升20倍,相关论文获CVPR满分。
NCFM引入辅助神经网络,将...
原文链接
英特尔于2月14日发布了2025.0版本的OpenVINO工具套件,新增对图像生成模型FLUX.1的支持,可在CPU和GPU上通过GenAI流水线运行。该版本提升了生成式AI模型的性能,特别是针对图像生成模型进行了深度优化。新版本还增加了Image2Image和Inpainting功能,增强了结果的可控性和局部内容再生能力。此外,OpenVINO 2025.0版本首次实现了NPU加速支持,开发者可通过PyTorch的torch.compile接口调用英特尔NPU算力。英特尔表示正在努力支持更多最新模型,包括Mistral-7B-Instruct-v0.2和Qwen2.5。
原文链接
苹果发现模型蒸馏Scaling Law!教师模型并非越强越好
克雷西 发自 凹非寺 | 量子位 | 公众号 QbitAI
苹果最新研究揭示了大模型蒸馏的Scaling Law,即学生模型和教师模型能力间的幂律关系。研究发现,教师模型并非越强越好,过强的教师模型可能导致学生模型性能恶化。
研究显示,学...
原文链接
2025年春节期间,AI初创公司DeepSeek发布的模型R1在全球范围内引发轰动,下载量突破2000万,用户数超过1亿。然而,DeepSeek因“盗窃”OpenAI数据的指控陷入争议。DeepSeek采用蒸馏技术,降低了训练成本,但遭质疑。蒸馏技术虽非抄袭,但可能导致模型同质化和幻觉问题。OpenAI指控DeepSeek违反模型使用条约,但缺乏具体证据。DeepSeek选择MIT开源协议,回应质疑。AI领域内,蒸馏技术并非罕见,而是近十年来的标准做法。DeepSeek的爆火带动了AI应用创新热潮,市场对此仍抱有期待。
原文链接
标题:别再被DeepSeek R1本地部署割韭菜,我帮你把坑都踩遍了
买它!趁着过年有空学起来。
春节期间,DeepSeek搅动了全球市场。智能键盘日销近百万,博主课程日入五万,仿冒网站涌现2650个,DeepSeek官方紧急声明。
用户体验不佳,服务器繁忙。开源策略催生本地部署教程,成为新的AI秘...
原文链接
Hinton、Oriol Vinyals、Jeff Dean合著的《Distilling the Knowledge in a Neural Network》论文,首次提出知识蒸馏概念,大幅提升模型压缩效率。尽管由深度学习之父Hinton等三位大佬撰写,该论文仍遭NeurIPS 2014拒收,理由是缺乏创新和影响力。知识蒸馏技术让模型能在保持准确率的情况下大幅压缩参数,使Siri等应用得以部署。论文提出用软目标替代硬目标,通过调整温度参数T来优化训练。实验显示,知识蒸馏在多个领域均取得显著成果,成为行业标配。
原文链接
加载更多

暂无内容