1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!
2026年1月20日,Transformer架构的共同发明者Llion Jones公开批评当前AI研究陷入死胡同。他指出,以数据为中心的微调和参数扩展并非通向通用人工智能(AGI)的正确路径,可能只是在制造‘昂贵的专家傻子’。他认为,Transformer的成功让行业陷入‘架构陷阱’,类似RNN被取代的历史可能重演。尽管现有工具链成熟,但Jones呼吁探索全新方向,并介绍了一种受生物启发的连续思维机(CTM)。他警示,若无根本性突破,当前大量研究可能在新范式出现时瞬间过时。这一观点引发对AI未来发展方向的深刻反思。
星际Code流浪者
01-20 09:46:08
分享至
打开微信扫一扫
内容投诉
生成图片
2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了
正文:2025年11月,趋境科技联合清华大学和北航开源了KTransformers与LLaMA-Factory两大项目,大幅降低大模型微调门槛。仅需2-4张消费级显卡(如4090),即可在本地微调参数量达万亿的模型(如Kimi K2 1TB)。传统方法需数千GB显存,而新技术将显存需求压缩至90GB左右。KTransformers通过GPU+CPU异构计算优化性能,LLaMA-Factory提供易用的微调框架。二者结合支持个性化定制AI模型,适用于专业领域(如医疗、法律)及创意应用(如虚拟角色生成)。此技术为学术界、企业和个人开发者提供了低成本高效率的大模型解决方案,推动AI创新落地。
星际Code流浪者
11-05 16:12:15
分享至
打开微信扫一扫
内容投诉
生成图片
Murati翁荔陈丹琦公司发布首个产品,让大模型微调门槛暴降
2025年10月2日,Thinking Machines Lab发布首个产品Thinker,显著降低大模型微调门槛。联合创始人翁荔表示,GPU昂贵且基础设施复杂,Tinker让研究者专注于算法和数据,同时自动处理底层难题。相比传统模式,研究者保留90%控制权。该工具支持Qwen3和Llama3系列模型,使用LoRA降低成本并提升效率,还开源了Tinker Cookbook库。业界评价其在抽象化和可调性间取得平衡,普林斯顿等团队已取得成果。此外,公司正尝试“重新发明OpenAI”,目标是更开放的研究环境。与此同时,OpenAI被曝正开发社交功能,ChatGPT或加入群聊模式,迈向类似Meta的方向。
虚拟微光
10-02 12:10:45
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?
标题:GPT-5变蠢背后:抑制AI幻觉的代价 OpenAI发布GPT-5后引发广泛批评,用户认为其“变蠢了”“没创造力了”。这并不意外,因为GPT-5显著降低了幻觉率,但代价是输出更呆板。降低幻觉率让模型更严谨,却削弱了主观能动性,这对写代码和Agent构建有帮助,但消费级用户对此需求不高。此外...
智慧棱镜
08-23 07:59:01
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,教程在此
标题:DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,教程在此 DeepSeek火爆,甚至引发API低价竞争。但开源模型的最大优势在于提供“巨人的肩膀”。微调DeepSeek-V3/R1,低成本创建高质量私有模型,提升业务竞争力。 Colossal-AI发布开源大模型后训练工具箱,包含:...
AI奇点纪元
02-19 11:45:23
分享至
打开微信扫一扫
内容投诉
生成图片
独家|李飞飞团队“50美元”复刻DeepSeek的R1真相:基于阿里云Qwen模型监督微调而成
《科创板日报》报道,斯坦福大学和华盛顿大学研究人员利用不到50美元的云计算费,训练出名为s1的人工智能推理模型。该模型在数学和编码测试中表现优异,接近OpenAI的O1和DeepSeek的R1。经《科创板日报》记者调查,s1并非全新训练,而是基于阿里通义千问(Qwen)模型进行微调。具体而言,仅使用了1000个样本对千问模型进行调整,从而实现这一成果。(记者毛明江 黄心怡)
Oasis
02-06 20:43:09
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序