
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:一句话生成LoRA!Transformer作者创业公司革新LLM微调
正文:
由Transformer作者之一Llion Jones联合创立的SakanaAI公司,近期推出Text-to-LoRA(T2L),大幅简化模型适配流程。以往微调大模型需数周时间准备数据和调整超参数,如今只需一句话即可...
原文链接
2025年,AI Agent发展迅猛。5月6日,OpenAI收购Windsurf,估值达30亿美元;Cursor母公司获9亿美元融资。AI Agent Operator和Deep Research相继推出,受到用户欢迎。专家认为,底层模型能力的提升是AI Agent发展的关键。Cursor和Windsurf因对环境理解深入而脱颖而出,Devin则试图去除IDE限制,构建更精细的操作环境。同时,评价机制(evaluation)的重要性被强调,成为未来AI Agent竞争力的核心。细分领域如Gamma、Vantel等垂直AI Agent展现巨大潜力,但通用型Agent仍需长期积累。业内认为,AI Agent的普及还需解决环境协议MCP的生态渗透及用户需求理解等问题。
原文链接
5月19日,谷歌DeepMind团队联合约翰·开普勒林茨大学LIT AI实验室发布新研究,通过强化学习微调(RLFT)技术提升AI语言模型的决策能力。传统语言模型虽能推理正确策略,却常因‘知道但做不到’的问题而受限。DeepMind团队创新性地用自生成的思维链作为训练信号,优化推理与行动一致性。在多臂老虎机测试中,2B参数模型动作覆盖率提升12个百分点,20臂环境下频次偏见率从70%降至35%。井字棋实验显示,微调后模型胜率提升5倍,与最优代理的对战回报归零。这项技术有效解决了推理-行动脱节问题,提升了AI的实际应用潜力。
原文链接
中国科学技术大学MIRA实验室王杰教授团队提出了一种名为知识图谱驱动的监督微调(KG-SFT)的新框架,有效提升了大语言模型(LLMs)在特定领域的知识理解和推理能力。实验显示,该框架在低数据医学问答任务中,仅用5%的训练数据,英语场景下知识准确率提升14%,成功入选ICLR 2025。KG-SFT通过解析知识图谱中的推理路径,联合生成文本推理过程,包含Extractor提取知识关联、Generator生成流畅解释、Detector检测解释正确性三大组件。该方法不仅适用于低数据场景,还具备与现有数据增强方法结合的潜力,在多领域数据集中展现了广泛应用前景。
原文链接
3月20日,Predibase发布全球首个端到端强化微调平台(RFT),支持无服务器和端到端训练方法。该平台受DeepSeek-R1开源项目的启发,无需大量标注数据,通过奖励和自定义函数实现强化学习。用户仅需浏览器即可完成数据上传、目标设定及复杂的大模型微调流程。Predibase利用RFT微调的Predibase-T2T-32B-RFT模型,在Kernelbench数据集上的正确率较DeepSeek-R1、OpenAI的o1及Claude 3.7 Sonnet高出3至4倍,且模型规模更小。此外,Predibase开源了该模型,并提供在线体验地址。
原文链接
腾讯AI Lab与香港中文大学合作,提出“无监督前缀微调”(UPFT)技术,大幅提升大型语言模型推理效率。UPFT仅需关注模型输出的前8至32个词元,无需完整推理过程。研究显示,不同推理路径的初期步骤高度相似,UPFT利用这一特性,减少95%的tokens训练,显著降低时间和内存需求。UPFT在GSM8K、MATH500等多个推理基准测试中表现优异,尤其在复杂推理任务中效果显著。
原文链接
标题:蚂蚁数科提出创新跨域微调框架ScaleOT,入选全球AI顶会AAAI 2025
在应用大模型于具体业务场景时,模型微调至关重要。然而,传统微调方法面临数据隐私和模型知识产权的风险。近期,蚂蚁数科、浙江大学、利物浦大学和华东师范大学联合团队提出的创新跨域微调框架ScaleOT入选AAAI 2025会议。
该框架能在不损害模型性能的前提下,将隐私保护效果提升50%,并比知识蒸馏技术降低90%的算力消耗。与现有方法相比,ScaleOT能动态调整隐私保护强度,避免模型关键层缺失及高昂计算成本。
蚂蚁数科技术团队介绍,ScaleOT通过智能评估模型层的重要性,自动识别关键层,保留“核心层”以减少性能损耗。同时,该框架对保留层进行“打码”,增强隐私保护,且可根据不同场景灵活调整隐私强度。目前,该算法已应用于蚂蚁数科的摩斯大模型隐私保护产品中。
原文链接
标题:DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,教程在此
DeepSeek火爆,甚至引发API低价竞争。但开源模型的最大优势在于提供“巨人的肩膀”。微调DeepSeek-V3/R1,低成本创建高质量私有模型,提升业务竞争力。
Colossal-AI发布开源大模型后训练工具箱,包含:...
原文链接
DeepSeek发布技术报告,介绍了其R1推理模型的训练过程。R1模型分为三个阶段:基于V3基模的'冷启动'训练,通过监督微调和强化学习优化的R1模型,以及利用R1模型数据蒸馏的小模型。训练中使用了准确性奖励和格式奖励。此外,报告探讨了四种提升推理能力的方法:推理时扩展、纯强化学习、SFT+RL、蒸馏。蒸馏技术使小模型更高效,但仍需依赖现有强模型。DeepSeek展示了这些方法的有效性,为未来模型训练提供了借鉴。
原文链接
《科创板日报》报道,斯坦福大学和华盛顿大学研究人员利用不到50美元的云计算费,训练出名为s1的人工智能推理模型。该模型在数学和编码测试中表现优异,接近OpenAI的O1和DeepSeek的R1。经《科创板日报》记者调查,s1并非全新训练,而是基于阿里通义千问(Qwen)模型进行微调。具体而言,仅使用了1000个样本对千问模型进行调整,从而实现这一成果。(记者毛明江 黄心怡)
原文链接
加载更多

暂无内容