综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年1月20日,Transformer架构的共同发明者Llion Jones公开批评当前AI研究陷入死胡同。他指出,以数据为中心的微调和参数扩展并非通向通用人工智能(AGI)的正确路径,可能只是在制造‘昂贵的专家傻子’。他认为,Transformer的成功让行业陷入‘架构陷阱’,类似RNN被取代的历史可能重演。尽管现有工具链成熟,但Jones呼吁探索全新方向,并介绍了一种受生物启发的连续思维机(CTM)。他警示,若无根本性突破,当前大量研究可能在新范式出现时瞬间过时。这一观点引发对AI未来发展方向的深刻反思。
原文链接
8块钱跑通强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
大模型竞争已从“暴力预训练”转向“后训练”战场。无论是OpenAI o1的推理突破,还是DeepSeek-R1通过强化学习(RL)实现的性能飞跃,都表明:模型能力不再单纯依赖算力堆砌,而是由精准微调和RL迭代决定。
然...
原文链接
在2025集成电路发展论坛(成渝)暨ICCAD-Expo 2025上,芯原股份创始人戴伟民预测,到2028年,中国基础大模型数量将少于10个,端侧微调卡和推理卡销售额将超过云侧训练卡。他进一步指出,到2035年,AI相关芯片将占据77.7%的半导体市场份额,边缘端AI设备的普及将成为推动半导体市场增长的核心动力。这一观点揭示了AI技术从云端向终端转移的趋势,以及其对半导体行业的深远影响。(记者 陈俊清)
原文链接
正文:2025年11月,趋境科技联合清华大学和北航开源了KTransformers与LLaMA-Factory两大项目,大幅降低大模型微调门槛。仅需2-4张消费级显卡(如4090),即可在本地微调参数量达万亿的模型(如Kimi K2 1TB)。传统方法需数千GB显存,而新技术将显存需求压缩至90GB左右。KTransformers通过GPU+CPU异构计算优化性能,LLaMA-Factory提供易用的微调框架。二者结合支持个性化定制AI模型,适用于专业领域(如医疗、法律)及创意应用(如虚拟角色生成)。此技术为学术界、企业和个人开发者提供了低成本高效率的大模型解决方案,推动AI创新落地。
原文链接
2025年10月11日,Thinking Machines发布论文《LoRA Without Regret》,探讨低秩适配(LoRA)在特定条件下媲美全参数微调(FullFT)的性能。研究表明,当LoRA应用于网络所有层(尤其是MLP/MoE层)且训练参数量充足时,其表现与FullFT相当。实验发现,LoRA的学习率通常是FullFT的10倍,大批量训练下容忍度较低。此外,在强化学习场景中,即使低秩LoRA也能达到FullFT的效果。研究基于Tulu3、OpenThoughts3及MATH等数据集,覆盖监督学习和策略梯度算法。此成果推动LoRA在定制化场景中的应用,同时为机器学习优化提供新视角。
原文链接
2025年10月4日,Thinking Machines发布论文《LoRA Without Regret》,探讨低秩适配(LoRA)在特定条件下媲美全参数微调(FullFT)的性能。研究表明,LoRA在小到中等规模数据集上表现与FullFT相当,但对大批量训练容忍度较低。关键发现包括:LoRA需应用于所有层(尤其是MLP/MoE层),且其学习率通常为FullFT的10倍。此外,在强化学习场景中,即使低秩LoRA也能达到FullFT的效果。研究旨在推动LoRA在定制化场景中的广泛应用,同时深化对机器学习基础问题的理解。更多详情见博客与论文链接。
原文链接
2025年10月2日,Thinking Machines Lab发布首个产品Thinker,显著降低大模型微调门槛。联合创始人翁荔表示,GPU昂贵且基础设施复杂,Tinker让研究者专注于算法和数据,同时自动处理底层难题。相比传统模式,研究者保留90%控制权。该工具支持Qwen3和Llama3系列模型,使用LoRA降低成本并提升效率,还开源了Tinker Cookbook库。业界评价其在抽象化和可调性间取得平衡,普林斯顿等团队已取得成果。此外,公司正尝试“重新发明OpenAI”,目标是更开放的研究环境。与此同时,OpenAI被曝正开发社交功能,ChatGPT或加入群聊模式,迈向类似Meta的方向。
原文链接
标题:腾讯混元升级AI绘画微调范式,人工评估分数提升300%
腾讯混元团队提出一种新方法,让AI生成图像更符合人类精细偏好,仅需在32块H20上训练10分钟即可收敛。通过优化FLUX1.dev模型,人工评估的真实感和美学评分提升3倍以上。
现有扩散模型虽可通过奖励机制贴合人类喜好,但存在两个...
原文链接
2025年9月,华为发布开源模型openPangu-Embedded-7B-v1.1,创新实现快慢思考模式自由切换,在精度不变的前提下将思维链长度缩短近50%。该模型通过渐进式微调和快慢自适应机制,既能手动切换模式,也能根据任务难度自动调整,大幅提升效率与灵活性。此外,华为还推出轻量级1B模型openPangu-Embedded-1B,专为边缘AI优化,性能媲美更大规模模型。两款模型已在GitCode平台开源,为国产自研大模型领域带来新突破,有望在多场景中展现应用潜力。
原文链接
标题:GPT-5变蠢背后:抑制AI幻觉的代价
OpenAI发布GPT-5后引发广泛批评,用户认为其“变蠢了”“没创造力了”。这并不意外,因为GPT-5显著降低了幻觉率,但代价是输出更呆板。降低幻觉率让模型更严谨,却削弱了主观能动性,这对写代码和Agent构建有帮助,但消费级用户对此需求不高。此外...
原文链接
加载更多
暂无内容