1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了
2025年8月,欧洲版OpenAI——Mistral被曝其最新模型疑似蒸馏自DeepSeek,却伪装成强化学习成果并歪曲基准测试结果。爆料来自一名离职员工,揭露公司多项黑幕。今年6月已有博主通过‘语言指纹’分析发现Mistral-small-3.2与DeepSeek-v3高度相似,质疑为蒸馏结果。蒸馏虽非违规,但Mistral未公开此事实,被指误导公众。Mistral成立于2023年,估值已高达100亿美元,以开源和多语言处理能力闻名,近期发布新模型Mistral Medium V3.1,但官方对此事暂无回应。
数字墨迹
08-14 16:57:45
DeepSeek
Mistral
蒸馏
分享至
打开微信扫一扫
内容投诉
生成图片
AI教父Hinton中国首次演讲实录:人类可能就是大语言模型
2025年7月26日,AI教父Geoffrey Hinton在中国首次发表演讲,探讨数字智能是否会取代生物智能。他回顾了AI发展的两种范式:符号主义与连接主义,并指出大语言模型的原理与人类语言理解方式类似,甚至认为人类可被视为一种大语言模型。Hinton强调AI在知识传播和复制上的优势,但也警示其潜在风险,呼吁全球合作确保AI安全。同场,MiniMax创始人闫俊杰分享了‘每个人的人工智能’主题,提出AI正在成为普惠工具,降低创意生产门槛,提升个人能力。他认为AI不会被少数公司垄断,而是通过开源和多模型架构实现普及化,未来AGI将属于全人类。
量子思考者
07-26 17:44:18
AI普惠
大语言模型
知识蒸馏
分享至
打开微信扫一扫
内容投诉
生成图片
纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源
标题:纯蒸馏模型 SOTA 突破!训练成本降低50倍,数据已开源 a-m-team 发布新论文,介绍下一代推理模型的小进展。团队基于 AM-Thinking-v1 数据通过“纯蒸馏”训练的学生模型,在多项高难度推理任务中接近甚至超越当前最优水平(SOTA),成本仅为传统方法的二十分之一。 论文《...
智能视野
05-22 11:30:40
SOTA
数据源
蒸馏模型
分享至
打开微信扫一扫
内容投诉
生成图片
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型 克雷西 | 发自凹非寺 量子位 | 公众号 QbitAI Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓! - 采用双模式架构,一个模型同时支持推理和非推理任务,自动切换。 - 训练和微调分段式策略,逐步构...
AI思维矩阵
05-14 16:17:10
Qwen3
双模态
模型蒸馏
分享至
打开微信扫一扫
内容投诉
生成图片
CVPR满分论文:一块2080Ti搞定数据蒸馏,GPU占用仅2G,来自上交大“最年轻博导”课题组
CVPR满分论文:2080Ti搞定数据蒸馏,GPU仅需2G,出自上交大“最年轻博导”团队 只要一块6年前的2080Ti,就能完成大模型数据蒸馏?来自上交大EPIC实验室等机构的研究提出一种新方法——NFCM,显存占用仅1/300,速度提升20倍,相关论文获CVPR满分。 NCFM引入辅助神经网络,将...
AI幻想空间站
03-03 16:25:05
minmax优化
NFCM
数据蒸馏
分享至
打开微信扫一扫
内容投诉
生成图片
英特尔发布 OpenVINO 2025.0:新增图像生成场景与 DeepSeek 蒸馏模型支持
英特尔于2月14日发布了2025.0版本的OpenVINO工具套件,新增对图像生成模型FLUX.1的支持,可在CPU和GPU上通过GenAI流水线运行。该版本提升了生成式AI模型的性能,特别是针对图像生成模型进行了深度优化。新版本还增加了Image2Image和Inpainting功能,增强了结果的可控性和局部内容再生能力。此外,OpenVINO 2025.0版本首次实现了NPU加速支持,开发者可通过PyTorch的torch.compile接口调用英特尔NPU算力。英特尔表示正在努力支持更多最新模型,包括Mistral-7B-Instruct-v0.2和Qwen2.5。
神经网络领航员
02-15 14:02:57
DeepSeek蒸馏模型
OpenVINO 2025.0
图像生成
分享至
打开微信扫一扫
内容投诉
生成图片
苹果发现模型蒸馏Scaling Law!教师模型并非越强越好
苹果发现模型蒸馏Scaling Law!教师模型并非越强越好 克雷西 发自 凹非寺 | 量子位 | 公众号 QbitAI 苹果最新研究揭示了大模型蒸馏的Scaling Law,即学生模型和教师模型能力间的幂律关系。研究发现,教师模型并非越强越好,过强的教师模型可能导致学生模型性能恶化。 研究显示,学...
WisdomTrail
02-14 16:41:33
Scaling Law
教师模型
模型蒸馏
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek「盗窃」OpenAI?更像是贼喊捉贼
2025年春节期间,AI初创公司DeepSeek发布的模型R1在全球范围内引发轰动,下载量突破2000万,用户数超过1亿。然而,DeepSeek因“盗窃”OpenAI数据的指控陷入争议。DeepSeek采用蒸馏技术,降低了训练成本,但遭质疑。蒸馏技术虽非抄袭,但可能导致模型同质化和幻觉问题。OpenAI指控DeepSeek违反模型使用条约,但缺乏具体证据。DeepSeek选择MIT开源协议,回应质疑。AI领域内,蒸馏技术并非罕见,而是近十年来的标准做法。DeepSeek的爆火带动了AI应用创新热潮,市场对此仍抱有期待。
AI思维矩阵
02-12 11:23:22
DeepSeek
OpenAI
蒸馏
分享至
打开微信扫一扫
内容投诉
生成图片
别再被DeepSeek R1本地部署割韭菜,我帮你把坑都踩遍了
标题:别再被DeepSeek R1本地部署割韭菜,我帮你把坑都踩遍了 买它!趁着过年有空学起来。 春节期间,DeepSeek搅动了全球市场。智能键盘日销近百万,博主课程日入五万,仿冒网站涌现2650个,DeepSeek官方紧急声明。 用户体验不佳,服务器繁忙。开源策略催生本地部署教程,成为新的AI秘...
AI幻想空间站
02-12 08:23:19
DeepSeek R1
本地部署
蒸馏小模型
分享至
打开微信扫一扫
内容投诉
生成图片
被DeepSeek带火的知识蒸馏 开山之作曾被拒:诺奖得主坐镇都没用
Hinton、Oriol Vinyals、Jeff Dean合著的《Distilling the Knowledge in a Neural Network》论文,首次提出知识蒸馏概念,大幅提升模型压缩效率。尽管由深度学习之父Hinton等三位大佬撰写,该论文仍遭NeurIPS 2014拒收,理由是缺乏创新和影响力。知识蒸馏技术让模型能在保持准确率的情况下大幅压缩参数,使Siri等应用得以部署。论文提出用软目标替代硬目标,通过调整温度参数T来优化训练。实验显示,知识蒸馏在多个领域均取得显著成果,成为行业标配。
幻彩逻辑RainbowLogic
02-07 18:04:58
Hinton
模型压缩
知识蒸馏
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序