
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek R1悄然更新,用“小版本”实现性能飞跃
虽然DeepSeek-R2并未如预期在5月发布,但DeepSeek正通过小版本迭代不断进步。近日,DeepSeek官方宣布R1完成小版本试升级,引起广泛关注。DeepSeek-R1-0528版本在编程能力上大幅提升,且价格保持不变,引发行...
原文链接
5月28日,深度求索(Deepseek)推出开源模型DeepSeek R1-0528,其编程能力显著提升,尤其在复杂指令处理和前端页面生成方面表现突出。据初步测试,R1-0528在Live CodeBench中的性能可媲美OpenAI的o3模型(High)。在Extended NYT Connections基准测试中,该模型得分49.8,较初代Deepseek R1的38.6分大幅提升。此基准测试基于《纽约时报》的Connections谜题游戏,难度升级,全面评估语言理解和推理能力。R1-0528不仅在编程能力上接近o3和o4-mini,还在代码补全及审美设计上展现优异表现,且推理速度更快,提供更流畅的用户体验。
原文链接
Claude 4发布:迈向替代人类程序员的关键一步
Anthropic近日推出Claude 4系列模型,包括旗舰版Claude Opus 4和更高效的Claude Sonnet 4。Opus 4在SWE-bench测试中得分达72.5%,可处理数百万行复杂代码,并完成长达7小时的连续编程任务。新...
原文链接
3月24日晚,深度学习模型DeepSeek推出升级版DeepSeek-V3(版本号DeepSeek-V3-0324),参数增至6850亿,较原版小幅提升。此次更新不仅开源协议更宽松,采用MIT协议,还显著增强了编程及设计能力。用户反馈显示,新模型在网站开发、UI设计等方面表现出色,前端代码生成能力尤为突出,媲美顶级闭源模型Claude 3.7 Sonnet。此外,DeepSeek-V3训练成本仅为557.6万美元,远低于同类闭源模型,而其API服务定价为10元人民币/百万Token,相较OpenAI GPT 4o的140元人民币更具性价比。
原文链接
标题:首个混合推理模型Claude 3.7发布!编程能力全面领先,还能控制思考时间
白交 发自 凹非寺
量子位 | 公众号 QbitAI
Claude 3.7 Sonnet,首个混合推理模型发布,编程和前端Web开发能力显著提升。它能在不同任务中切换,如快速反应和逐步思考。在相同提示下,Claude...
原文链接
OpenAI CEO奥特曼透露,其内部模型编程能力已跻身全球前50,预计年底将超越所有人类。此外,在东京大学的对话活动中,奥特曼表示内部模型已达到GPT 4.5水平,升级至GPT 5.5不再需要100倍算力。OpenAI正致力于开发更强大的推理模型,目标是年底推出能处理复杂问题的模型。奥特曼还提到,OpenAI计划开源,但具体细节待定。
原文链接
OpenAI CEO奥特曼透露,内部模型编程能力已达全球Top50,预计年底将排名第一。奥特曼还表示,内部已达到GPT 4.5水平,升级至GPT 5.5不需要100倍算力。在东京大学的对话活动中,奥特曼讨论了AI教育影响及所需人才技能。他强调,AI时代应培养快速适应能力和创新视野。关于算力,奥特曼称,尽管GPT系列每次升级需100倍算力,但新模型通过强化学习技术提升了计算效率。目前,一个内部模型在基准测试中排名约为TOP50,年底有望登顶。奥特曼还提到,OpenAI正开发小型、功能强大的推理模型,并计划推出编程智能体。针对开源问题,奥特曼表示将朝此方向努力,但具体细节待定。此外,他还谈及脑机接口等前沿科技的看法。
原文链接
OpenAI发布了下一代模型o3,在编程能力和数学测试上取得显著进展。o3在编程竞赛CodeForces分数超2700,仅200人超越。在ARC-AGI测试中,得分从32%提升至75.7%-87.5%。尤其在EpochAI Frontier Math测试中,从2分提升至25分,远超人类解题时间。o3-mini展示了更强的编程能力,能在38秒内完成复杂任务。北大校友任泓宇现身直播,演示了o3-mini的能力。模型目前处于早期预览阶段,不对外开放。
原文链接
标题:Anthropic放大招:AI能像人一样操作电脑,你旁边看着就行
Anthropic近日发布了Claude 3.5的两项重大更新,包括Sonnet和Haiku两个版本。
Claude 3.5 Sonnet在编程方面表现突出,并新增了“计算机使用能力”,使AI能像人类一样操作电脑。例如,浏览网页...
原文链接
加载更多

暂无内容