综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年3月3日,谷歌研究院发布论文揭示一种简单却高效的AI优化方法:重复提示词可显著提升大语言模型在非推理任务中的表现。例如,在信息提取任务中,Gemini 2.0 Flash-Lite模型的准确率从21.33%飙升至97.33%。该方法利用Transformer架构的特性,通过“虚拟重读”帮助模型更好理解输入内容,且几乎不增加延迟。实验显示,这一技巧在7个主流模型的70种场景中,47次显著提升性能,无一失效。不过,对深度推理型模型效果有限,且可能因提示词过长影响处理效率。网友评论称,这种“简单粗暴”的方法令人意外,也展现了朴素智慧的力量。
原文链接
2026年1月24日,Anthropic宣布开源其内部技术笔试题,因Claude Opus 4.5模型在测试中全面超越人类工程师。该试题曾用于筛选顶尖性能工程师,但随着AI能力提升,传统笔试已无法区分人类与AI表现。Claude Opus 4.5在2小时内完成优化任务,甚至追平人类历史最高纪录。Anthropic尝试多次迭代考题,包括设计更复杂或‘分布外’问题,但均被AI攻克。公司现公开挑战:若有人类能在无限时间内击败Claude Opus 4.5的最佳表现(1363周期),可联系Anthropic。原版试题已发布至GitHub,供公众尝试。
原文链接
2025年9月,Gimlet Labs研究发现,AI可自动生成苹果设备的Metal内核,并显著提升PyTorch推理速度。实验显示,AI生成内核在215个PyTorch模块上实现平均1.87倍加速,部分工作负载甚至快数百倍。研究人员使用Mac Studio(Apple M4 Max芯片)和PyTorch eager模式作为基准,测试了Anthropic、DeepSeek和OpenAI等模型。AI生成内核正确性随尝试次数增加而提高,第5次尝试时可达94%。智能体群体策略进一步优化性能,平均加速31%,特定层级达42%。研究强调其目标是验证AI生成内核的可行性,而非追求极限性能,展现自动化内核工程的潜力。
原文链接
无需数据标注!测试时强化学习,模型数学能力暴增159%!
清华和上海AI Lab周伯文团队提出一种新方法:测试时强化学习(TTRL),无需数据标注,仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例,在AIME 2024竞赛题中的准确率从16.7%提升至43.3%,增幅...
原文链接
标题:深度解析:DeepSeek-V3的训练过程
近日,DeepSeek-V3低调发布,凭借500万美元的成本,其性能媲美Claude 3.5,并已开源。
性能
DeepSeek-V3在多项基准测试中表现出色,尤其在高级数学推理能力方面超越其他模型。它在BBH、MMLU系列、DROP、HumanEv...
原文链接
本文探讨了IT系统中的延迟问题,从1纳秒到2天,涵盖了CPU、内存、网络、硬盘等组件的响应时间。作者强调了理解延迟指标对性能优化和产品设计的重要性,指出即使在现代技术中,光速限制等因素决定了某些延迟的理论最低值。例如,北京到广州的延迟受物理距离影响,不可能低于6毫秒。文章介绍了不同延迟级别下的典型活动,如CPU的20纳秒以下、内存读写和网络操作的微秒级,以及广域网通信的毫秒至秒级延迟。最后,作者提醒在产品设计和性能需求设定时,需考虑这些延迟因素。本文摘自公众号“云算计”,作者曹亚孟。
原文链接
加载更多
暂无内容