微调 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Transformer亲爹痛斥：当前AI陷死胡同，微调纯属浪费时间！

2026年1月20日，Transformer架构的共同发明者Llion Jones公开批评当前AI研究陷入死胡同。他指出，以数据为中心的微调和参数扩展并非通向通用人工智能（AGI）的正确路径，可能只是在制造‘昂贵的专家傻子’。他认为，Transformer的成功让行业陷入‘架构陷阱’，类似RNN被取代的历史可能重演。尽管现有工具链成熟，但Jones呼吁探索全新方向，并介绍了一种受生物启发的连续思维机（CTM）。他警示，若无根本性突破，当前大量研究可能在新范式出现时瞬间过时。这一观点引发对AI未来发展方向的深刻反思。

原文链接

星际Code流浪者

01-20 09:46:08

分享至

打开微信扫一扫

内容投诉

生成图片

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

正文：2025年11月，趋境科技联合清华大学和北航开源了KTransformers与LLaMA-Factory两大项目，大幅降低大模型微调门槛。仅需2-4张消费级显卡（如4090），即可在本地微调参数量达万亿的模型（如Kimi K2 1TB）。传统方法需数千GB显存，而新技术将显存需求压缩至90GB左右。KTransformers通过GPU+CPU异构计算优化性能，LLaMA-Factory提供易用的微调框架。二者结合支持个性化定制AI模型，适用于专业领域（如医疗、法律）及创意应用（如虚拟角色生成）。此技术为学术界、企业和个人开发者提供了低成本高效率的大模型解决方案，推动AI创新落地。

原文链接

星际Code流浪者

11-05 16:12:15

分享至

打开微信扫一扫

内容投诉

生成图片

Murati翁荔陈丹琦公司发布首个产品，让大模型微调门槛暴降

2025年10月2日，Thinking Machines Lab发布首个产品Thinker，显著降低大模型微调门槛。联合创始人翁荔表示，GPU昂贵且基础设施复杂，Tinker让研究者专注于算法和数据，同时自动处理底层难题。相比传统模式，研究者保留90%控制权。该工具支持Qwen3和Llama3系列模型，使用LoRA降低成本并提升效率，还开源了Tinker Cookbook库。业界评价其在抽象化和可调性间取得平衡，普林斯顿等团队已取得成果。此外，公司正尝试“重新发明OpenAI”，目标是更开放的研究环境。与此同时，OpenAI被曝正开发社交功能，ChatGPT或加入群聊模式，迈向类似Meta的方向。

原文链接

虚拟微光

10-02 12:10:45

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-5变蠢背后：抑制AI的幻觉，反而让模型没用了？

标题：GPT-5变蠢背后：抑制AI幻觉的代价 OpenAI发布GPT-5后引发广泛批评，用户认为其“变蠢了”“没创造力了”。这并不意外，因为GPT-5显著降低了幻觉率，但代价是输出更呆板。降低幻觉率让模型更严谨，却削弱了主观能动性，这对写代码和Agent构建有帮助，但消费级用户对此需求不高。此外...

原文链接

智慧棱镜

08-23 07:59:01

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek满血微调秘籍开源！站在巨人肩膀打造私有模型，教程在此

标题：DeepSeek满血微调秘籍开源！站在巨人肩膀打造私有模型，教程在此 DeepSeek火爆，甚至引发API低价竞争。但开源模型的最大优势在于提供“巨人的肩膀”。微调DeepSeek-V3/R1，低成本创建高质量私有模型，提升业务竞争力。 Colossal-AI发布开源大模型后训练工具箱，包含：...

原文链接

AI奇点纪元

02-19 11:45:23

分享至

打开微信扫一扫

内容投诉

生成图片

独家|李飞飞团队“50美元”复刻DeepSeek的R1真相：基于阿里云Qwen模型监督微调而成

《科创板日报》报道，斯坦福大学和华盛顿大学研究人员利用不到50美元的云计算费，训练出名为s1的人工智能推理模型。该模型在数学和编码测试中表现优异，接近OpenAI的O1和DeepSeek的R1。经《科创板日报》记者调查，s1并非全新训练，而是基于阿里通义千问(Qwen)模型进行微调。具体而言，仅使用了1000个样本对千问模型进行调整，从而实现这一成果。（记者毛明江黄心怡）

原文链接