最强AI程序员:84秒跑通代码,像人一样思考!团队仅5人
地表最强AI软件工程师Genie横空出世,其性能已与人类工程师不相上下。Genie在权威榜单SWE-Bench中以解决30.07%问题的成绩拔得头筹,远超第二名19.27%,实现了高达57%的提升。它能像人类一样解决现实中的软件问题,只需四步操作即可开始工作:通过提示词、GitHub Issue、Linear Ticket或API。
以GitHub Issue为例,Genie自动解析问题,通过迭代思考确定解决问题所需文件,随后进行自动迭代分析。接着,它迅速编写并执行代码,全程耗时仅84秒。团队称,Genie已观察并学习了数百万次人类程序员解决软件问题的过程,这是任何人类程序员一生都无法达到的数量。
背后团队Cosine仅由5人组成,CEO Alistair在感谢OpenAI的同时指出,没有后者,团队无法创造Genie。Genie的训练方法独特,团队在过去一年收集了包含真实人类程序员开发活动的数据集,其中包括成果分析、静态分析、自我对弈、逐步验证等,以及基于大量标记数据训练的AI模型,使数据质量随基础模型能力提升而提高。
为了应对错误情况,团队引入了自我改进机制,使用初代Genie生成包含错误的合成数据进行训练。这一过程使得Genie的初始解决方案越来越准确,即便出现错误也能通过少量修正达到正确答案。Genie的成功得益于OpenAI提供的大模型支持,团队通过数十亿token的数据训练模型,实现性能飞跃。
Cosine团队规模虽小,但实力不容小觑。成员来自独角兽企业,拥有管理全球团队经验,甚至有人自8岁起便开始编程。团队的目标是深入理解人类推理,并已成功将这一理念转化为强大的AI工具。团队成员中还有一位华人Yang Li,是Cosine的联合创始人,曾登上福布斯30 under 30榜单。
Genie的开发始于2022年,当时从技术角度看尚不可行。直到近半年来,随着大模型技术的发展,Genie才得以实现。团队表示,数据质量和大模型的支持是Genie性能提升的关键因素。对于有兴趣体验Genie的用户,可访问Waitlist页面进行注册。
总结:Genie,这款由仅5人组成的团队Cosine研发的地表最强AI软件工程师,以其84秒跑通代码的能力,展现出媲美人类工程师的思考与行动。借助OpenAI的大模型支持与创新的数据训练方法,Genie不仅大幅提升了解决问题的效率,还展现了AI在理解和模仿人类思维过程上的潜力。团队的成功故事激励着我们,即使是小型团队,也能在AI领域创造出令人瞩目的成果。
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38