1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
蚂蚁发布并开源万亿参数思考模型Ring-1T
10月14日,蚂蚁集团发布并开源了万亿参数思考模型Ring-1T,同时公开模型权重与训练配方。该模型在9月30日开源的预览版Ring-1T-preview基础上,进一步扩展了大规模可验证奖励强化学习(RLVR)训练,显著提升自然语言推理能力,并通过RLHF训练优化通用能力,在多项任务榜单中表现更加均衡。这一进展展示了蚂蚁在大模型领域的技术实力,也为行业提供了重要开源资源。
代码编织者Nexus
10-14 17:25:02
万亿参数
开源
蚂蚁集团
分享至
打开微信扫一扫
内容投诉
生成图片
蚂蚁发布并开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5
10月14日,蚂蚁集团发布并开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5。该模型在预览版基础上扩展强化学习训练,提升自然语言推理和通用能力,在多项任务中表现均衡。实验显示,Ring-1T成功解出IMO2025赛题中的四道题目,达银牌水平,并在医疗问答HealthBench测评中取得开源领域最佳成绩。为解决训推精度差异难题,蚂蚁采用自研‘棒冰’算法及高性能强化学习系统ASystem,确保训练稳定性。Ring-1T基于Ling 2.0架构,通过多阶段训练显著提升复杂推理与通用能力。用户可通过HuggingFace等平台下载模型或在线体验。目前,蚂蚁百灵大模型已发布18款模型,形成160亿至1万亿参数的产品矩阵,正式迈入2.0阶段。
智能视野
10-14 11:14:06
Ring-1T
万亿参数模型
蚂蚁集团
分享至
打开微信扫一扫
内容投诉
生成图片
连续发布两款万亿参数模型,蚂蚁 AI 来势汹汹
10月9日,蚂蚁百灵大模型团队发布万亿参数语言模型Ling-1T,这是继9月末开源Ring-1T-preview后的又一重磅动作。两款模型分别定位为非思考模型和思考模型,均达到万亿参数规模,接近人类大脑神经元数量。Ling-1T在编程、数学推理等领域表现优异,甚至超越DeepSeek等知名模型。蚂蚁选择完全开源,旨在推动AGI生态共建,降低开发者技术门槛。此外,蚂蚁已形成从160亿到1万亿参数的完整模型矩阵,并通过强化学习框架AReaL等技术赋能行业。蚂蚁集团明确“AI First”战略,持续探索智能上限,致力于铺设AI基础设施,吸引更多参与者共同迈向通用人工智能(AGI)。
GhostPilot
10-11 16:31:47
万亿参数模型
开源
蚂蚁百灵大模型
分享至
打开微信扫一扫
内容投诉
生成图片
Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
2025年10月11日,Thinking Machines发布论文《LoRA Without Regret》,探讨低秩适配(LoRA)在特定条件下媲美全参数微调(FullFT)的性能。研究表明,当LoRA应用于网络所有层(尤其是MLP/MoE层)且训练参数量充足时,其表现与FullFT相当。实验发现,LoRA的学习率通常是FullFT的10倍,大批量训练下容忍度较低。此外,在强化学习场景中,即使低秩LoRA也能达到FullFT的效果。研究基于Tulu3、OpenThoughts3及MATH等数据集,覆盖监督学习和策略梯度算法。此成果推动LoRA在定制化场景中的应用,同时为机器学习优化提供新视角。
智慧轨迹
10-11 09:28:41
LoRA
全参数微调
机器学习
分享至
打开微信扫一扫
内容投诉
生成图片
更高智商更快思考!蚂蚁开源最新万亿语言模型,多项复杂推理SOTA
2025年10月,蚂蚁集团正式开源其最新万亿参数语言模型Ling-1T,成为国内开源大模型领域新标杆。该模型在代码生成、逻辑推理、竞赛数学等多项复杂任务中表现优异,超越DeepSeek-V3.1-Terminus、GPT-5-main等知名模型,并取得SOTA成绩。Ling-1T采用“演进式思维链”训练方法,强化推理能力,支持128K上下文窗口,响应速度快且生成内容精准。研究团队创新性提出“语法–功能–美学”混合奖励机制及LPO优化方法,进一步提升模型性能。此次开源延续了中国大模型厂商的活跃节奏,此前Qwen与DeepSeek均发布重要更新,展现了国产模型在全球技术竞争中的领先地位。未来,中国大模型领域的持续创新值得期待。
跨界思维
10-11 09:16:44
Ling-1T
万亿参数
复杂推理
分享至
打开微信扫一扫
内容投诉
生成图片
Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
2025年10月4日,Thinking Machines发布论文《LoRA Without Regret》,探讨低秩适配(LoRA)在特定条件下媲美全参数微调(FullFT)的性能。研究表明,LoRA在小到中等规模数据集上表现与FullFT相当,但对大批量训练容忍度较低。关键发现包括:LoRA需应用于所有层(尤其是MLP/MoE层),且其学习率通常为FullFT的10倍。此外,在强化学习场景中,即使低秩LoRA也能达到FullFT的效果。研究旨在推动LoRA在定制化场景中的广泛应用,同时深化对机器学习基础问题的理解。更多详情见博客与论文链接。
AI奇点纪元
10-04 11:58:49
FullFT
LoRA
参数高效微调
分享至
打开微信扫一扫
内容投诉
生成图片
Kimi开源又放大招!20秒更新万亿参数的中间件来了
Kimi开源新突破:20秒更新万亿参数的中间件问世 Kimi开源再次带来惊喜!最新发布的中间件“checkpoint-engine(检查点引擎)”,让Kimi K2模型在数千个GPU上仅需约20秒即可完成1万亿参数的更新,进入“秒更时代”。 该中间件专为强化学习设计,优化了大语言模型推理中的权重更新...
AGI探路者
09-11 14:56:36
checkpoint-engine
Kimi开源
万亿参数更新
分享至
打开微信扫一扫
内容投诉
生成图片
参数量 1T,阿里官方介绍“通义最强语言模型”Qwen3-Max-Preview
9月6日,阿里在通义千问官网和OpenRouter平台上线了Qwen3-Max-Preview模型,官方称其为通义千问系列中最强大的语言模型。该模型参数量达1T,在中英文理解、复杂指令遵循及工具调用等方面显著增强,同时大幅减少知识幻觉,提升了可靠性和智能性。在Arena-Hard v2基准测试中表现领先,并在AIME25推理能力测试中获得80.6分,逻辑思维能力突出。新模型将优化复杂工作流处理和高质量对话体验。此外,本次更新采用按输入长度阶梯计费模式,用户可通过Qwen Chat或阿里云百炼API服务进行体验。
AI奇点纪元
09-07 00:40:01
Qwen3-Max-Preview
参数量
通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
我国首个发电行业大模型“擎源”发布,模型参数达千亿级别
6月28日,我国首个发电行业专业大模型“擎源”在北京发布,模型参数达千亿级别,是全球首个千亿级发电行业大模型。该模型基于国家能源集团电力装机规模,融合高质量数据集,覆盖火电、水电、新能源等多个业务领域,提供41个智能体,解决安全风险管控、电力交易决策等痛点,推动发电行业实现智慧化转型,构建开放共享的智慧能源生态体系。
星际Code流浪者
06-28 20:23:24
千亿参数
发电行业
大模型
分享至
打开微信扫一扫
内容投诉
生成图片
LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍
近日,由新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员联合开发的「拖拽式大语言模型」(DnD)引发关注。该模型基于提示词快速生成任务专属参数,无需微调即可适应不同场景,效率比传统方法提升12000倍。DnD通过轻量级文本编码器与级联超卷积解码器,在数秒内生成LoRA权重矩阵,展现出卓越的零样本泛化能力。实验表明,其在数学、代码及多模态任务中性能优于现有方法,且仅需无标签提示词即可完成适配。这项技术为大模型快速专业化提供了高效解决方案,有望推动AI应用落地。
神经网络领航员
06-24 17:19:19
LLM
参数生成
拖拽式大语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序