1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级
打破代码大模型训练瓶颈:MicroCoder全面升级训练方法 微软亚洲研究院、剑桥大学和普林斯顿大学联合推出MicroCoder,从算法、数据、框架和训练经验四个维度优化代码大模型训练,在最新测试集中取得显著提升,并开源了34条训练洞察。 背景:旧方法为何失效? 强化学习是提升代码模型能力的核心路径...
Nebula
03-30 01:19:37
分享至
打开微信扫一扫
内容投诉
生成图片
西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026
标题:西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026 正文: 让 AI 连续生成一致的图像一直是个难题。例如,AI 画一个角色时,第一张可能很好看,但后续几张会出现明显差异;制作海报或故事分镜时,风格、身份甚至逻辑都难以统一。这种问题在 IP...
智能维度跳跃
03-24 11:45:18
分享至
打开微信扫一扫
内容投诉
生成图片
Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
2026年3月,Cursor推出自研编程模型Composer 2,性能超越Claude Opus 4.6,价格大幅降低,被称为“脚踝斩”。新模型通过强化学习方法提升能力,尤其在长任务处理上表现突出。其核心创新是“自我总结”机制,使模型在复杂任务中主动压缩上下文并保留关键信息,显著减少错误和token消耗。定价方面,输入0.5美元/百万tokens,输出2.5美元/百万tokens,性价比极高。此外,Cursor还发布了更快的变体Composer 2 Fast,速度与价格优势兼备。官方透露Composer 3已在研发中,展现快速迭代能力。Cursor正从早期依赖Claude转型为独立模型提供商,未来发展备受期待。
E-Poet
03-20 12:25:37
分享至
打开微信扫一扫
内容投诉
生成图片
于骞出席德国慕尼黑汽车论坛:世界模型+强化学习是通向物理AI的必经之路
3月18日,轻舟智航联合创始人、董事长兼CEO于骞博士在德国慕尼黑‘智能汽车与智能制造论坛’上发表演讲,提出‘世界模型+强化学习’是实现物理AI的必经之路。他指出,自动驾驶是物理AI的最佳训练场,依托世界模型与强化学习,AI可理解物理规律和社会常识决策。轻舟智航已实现辅助驾驶系统搭载量突破100万台,并在仅128TOPS算力平台上实现领先的城市NOA功能。公司计划2026年试点Robotaxi业务,2027年规模化部署。轻舟还宣布慕尼黑成为其欧洲新锚点,将中国复杂交通环境中的AI技术与德国工程底蕴结合,推动全球化布局。
像素宇宙
03-19 19:23:06
分享至
打开微信扫一扫
内容投诉
生成图片
清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026
2026年2月,清华大学刘洋团队发布论文《DOCTOR-R1: Mastering Clinical Inquiry with Experiential Agentic Reinforcement Learning》,揭示了为何参数规模更大的医疗AI模型(如70B)在真实问诊中表现不如较小的模型(如8B)。研究表明,传统静态评测方式无法反映模型在动态临床场景中的能力,现有模型常因提问策略僵化、高风险信号反应迟钝等问题失效。DOCTOR-R1通过强化学习和部分可观测马尔可夫决策过程建模,在多轮问诊中展现出更优的提问策略与沟通能力,显著提升诊断准确性与安全性。研究强调真实临床能力需结合交互训练,并为医疗AI发展提供了新范式。
镜像现实MirageX
02-24 14:48:42
分享至
打开微信扫一扫
内容投诉
生成图片
清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026
标题:清华刘知远团队论文:强化学习能否教会大模型新能力?| ICLR 2026 正文: 随着大语言模型的规模和预训练强度不断提升,强化学习在后训练阶段的角色正发生变化。尽管它仍是提升推理和多步决策表现的关键技术,但越来越多的实验表明,强化学习的性能提升往往难以等同于“新能力的形成”。尤其是在 p...
蝶舞CyberSwirl
02-09 19:27:01
分享至
打开微信扫一扫
内容投诉
生成图片
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026年2月5日,中金公司发布研报指出,全球大模型技术在推理、编程、Agentic及多模态能力上已取得显著进步,但在稳定性与幻觉率等方面仍有不足。展望未来,中金预计2026年大模型将在强化学习、模型记忆和上下文工程等领域实现更多突破,从短context生成迈向长思维链任务,从文本交互扩展至原生多模态应用,进一步接近通用人工智能(AGI)的长期目标。
数据炼金师
02-05 08:39:59
分享至
打开微信扫一扫
内容投诉
生成图片
腾讯混元再引强将,庞天宇即将入职多模态模型团队负责强化学习前沿算法探索
1月28日,腾讯混元团队宣布开源混元图像3.0图生图版本,并在LMArena榜单中位列第一梯队。原新加坡Sea AI Lab高级研究科学家庞天宇即将加入腾讯混元多模态部Exploration Center,负责强化学习算法探索。庞天宇为清华大学计算机系直博生,师从朱军教授,曾获微软学者奖学金等多项荣誉,在顶级会议发表多篇论文。腾讯混元系列大模型已在内外部广泛接入,衍生模型下载量超800万,成为全球热门开源模型之一。腾讯董事会主席马化腾表示,公司持续吸引AI人才并优化组织结构,元宝将推出“元宝派”AI社交玩法,融合腾讯视频、QQ音乐等内容,同时上线10亿现金红包激励活动,目标重现微信红包的辉煌时刻。
Journeyman
01-30 15:35:19
分享至
打开微信扫一扫
内容投诉
生成图片
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
8块钱跑通强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队 大模型竞争已从“暴力预训练”转向“后训练”战场。无论是OpenAI o1的推理突破,还是DeepSeek-R1通过强化学习(RL)实现的性能飞跃,都表明:模型能力不再单纯依赖算力堆砌,而是由精准微调和RL迭代决定。 然...
虚拟织梦者
01-07 16:15:48
分享至
打开微信扫一扫
内容投诉
生成图片
Dwarkesh最新播客:AI 进展年终总结
2025年12月,Dwarkesh在其最新播客中总结了AI进展的现状与未来趋势。他指出,以强化学习为核心的“中训练”正成为大语言模型的重点突破方向,但这表明AGI仍遥远,因模型需依赖大量预置技能而非泛化能力。他认为,当前AI经济扩散滞后并非技术扩散问题,而是模型能力不足所致。此外,Dwarkesh提到,持续学习将是AGI后提升模型能力的主要驱动力,预计明年前沿团队将发布初步功能,但达到人类水平可能还需5到10年。他还强调,AI在特定任务上的表现常被高估,而真正的AGI需解决复杂智能和劳动的核心问题。评论区反馈补充了对AI错误模式不可预测性及强化学习局限性的讨论。
星际Code流浪者
12-25 18:54:19
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序