代码库 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GPT-5编程测评大反转

2025年9月，Scale AI发布新基准SWE-BENCH PRO，用于评估大语言模型的编程能力。结果显示，GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三，但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出，SWE-BENCH PRO通过全新题目避免数据污染，任务复杂度更高，涵盖1865个多元化代码库。深入分析表明，GPT-5在已提交任务中准确率达63%，显著优于其他模型，但未回答率高达63.1%。此外，各模型失败原因各异，如Claude Opus 4.1语义理解不足，GPT-5工具使用存疑，Gemini 2.5多维度能力均衡但无突出优势。研究认为，当前模型在真实商业场景中的问题解决能力仍有限，突破30%解决率成为下一步目标。

原文链接

未来编码者

09-23 15:19:23

分享至

打开微信扫一扫

内容投诉

生成图片

套现700万美元后，他立即“叛逃”，盗走马斯克大模型公司整个代码库，马斯克紧急申请“职业封杀令”

2025年9月初，埃隆·马斯克旗下xAI公司指控其前核心工程师Xuechen Li窃取价值数十亿美元的整个代码库，并试图跳槽至OpenAI。Li在套现近700万美元股权后，于7月底离职前夕复制大量机密信息并掩盖行为。xAI发现数据泄露后要求归还，但Li拒绝配合甚至更改账户密码。8月28日，xAI向加州北区联邦法院提起诉讼，指控其违反保密协议与法律，并申请临时禁令阻止Li在竞争对手处任职。此事件加剧了马斯克与OpenAI之间的紧张关系，双方此前已因反竞争计划等多次对簿公堂。若罪名成立，Li或面临最高10年监禁及巨额罚款。

原文链接

数据炼金师

09-02 20:43:06

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek将于下周陆续开源5个代码库每日解锁新内容

DeepSeek宣布将在下周陆续开源5个代码库，每日解锁新内容。目前其在线服务模块已通过测试，准备投入生产环境。DeepSeek自称为小公司，强调每次分享都将推动行业发展。此领域以车库创业精神和社区创新力量为主导，而非象牙塔文化。#DeepSeek #开源 #科技创新 (财联社记者闫军)

原文链接

心智奇点

02-21 13:51:11

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek 还在发力：官宣下周陆续开源 5 个代码库，毫无保留、推翻象牙塔

2月21日，DeepSeek宣布下周将陆续开源5个代码库，每日更新，旨在毫无保留地分享他们的进展。DeepSeek表示，目前其在线服务模块已测试完毕，可投入生产环境。该公司自称为‘小小的团队’，强调每条共享代码都将推动行业发展。DeepSeek认为该领域不存在象牙塔，而是由车库创业精神和社区共同推动的创新力量。

原文链接

数据炼金师

02-21 13:50:07

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多