综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年9月,Scale AI发布新基准SWE-BENCH PRO,用于评估大语言模型的编程能力。结果显示,GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三,但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出,SWE-BENCH PRO通过全新题目避免数据污染,任务复杂度更高,涵盖1865个多元化代码库。深入分析表明,GPT-5在已提交任务中准确率达63%,显著优于其他模型,但未回答率高达63.1%。此外,各模型失败原因各异,如Claude Opus 4.1语义理解不足,GPT-5工具使用存疑,Gemini 2.5多维度能力均衡但无突出优势。研究认为,当前模型在真实商业场景中的问题解决能力仍有限,突破30%解决率成为下一步目标。
原文链接
2025年9月初,埃隆·马斯克旗下xAI公司指控其前核心工程师Xuechen Li窃取价值数十亿美元的整个代码库,并试图跳槽至OpenAI。Li在套现近700万美元股权后,于7月底离职前夕复制大量机密信息并掩盖行为。xAI发现数据泄露后要求归还,但Li拒绝配合甚至更改账户密码。8月28日,xAI向加州北区联邦法院提起诉讼,指控其违反保密协议与法律,并申请临时禁令阻止Li在竞争对手处任职。此事件加剧了马斯克与OpenAI之间的紧张关系,双方此前已因反竞争计划等多次对簿公堂。若罪名成立,Li或面临最高10年监禁及巨额罚款。
原文链接
DeepSeek宣布将在下周陆续开源5个代码库,每日解锁新内容。目前其在线服务模块已通过测试,准备投入生产环境。DeepSeek自称为小公司,强调每次分享都将推动行业发展。此领域以车库创业精神和社区创新力量为主导,而非象牙塔文化。#DeepSeek #开源 #科技创新 (财联社记者 闫军)
原文链接
2月21日,DeepSeek宣布下周将陆续开源5个代码库,每日更新,旨在毫无保留地分享他们的进展。DeepSeek表示,目前其在线服务模块已测试完毕,可投入生产环境。该公司自称为‘小小的团队’,强调每条共享代码都将推动行业发展。DeepSeek认为该领域不存在象牙塔,而是由车库创业精神和社区共同推动的创新力量。
原文链接
加载更多
暂无内容