
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月19日,AI智能体平台Manus联合创始人季逸超发布技术博客,复盘公司从年初爆火至今的开发经验与教训。Manus于3月推出,号称全球首款通用智能体,凭借在GAIA基准测试中的优异表现引发用户热情,但仅限邀请体验。博客总结了团队选择‘上下文工程’而非端到端模型训练的原因,强调快速迭代的重要性,并分享优化Agent性能的关键实践:如提升KV缓存命中率、屏蔽而非移除工具、利用文件系统作为上下文等。文章还指出错误信息保留和避免少样本提示模式化的必要性,为构建高效AI Agent提供实用建议。
原文链接
2025年7月18日,Manus联合创始人季逸超发布长文,首次回应公司从爆火到争议的历程。Manus因“全球首个通用Agent”概念于3月走红,5月获Benchmark领投7500万美元,估值达5亿美元。但6月底被曝裁员、删博、迁至新加坡,引发舆论哗然。季逸超在博文中总结了团队在Agent产品技术上的七大核心经验,包括上下文工程、KV缓存优化、工具管理等,强调‘如何让模型更有用’是关键。然而,他未回应外界关注的搬迁及裁员善后问题。Manus未来能否将技术落地仍无定论。
原文链接
2025年7月11日,Hugging Face发布新一代最强30亿参数小模型SmolLM3,支持128k超长上下文、双推理模式(think/no_think)及多语言处理。该模型性能超越Llama3.2-3B和Qwen2.5-3B,逼近40亿参数模型,并完全开源训练、对齐、架构与数据。团队通过优化架构(如GQA机制、NoPE编码)及三阶段训练策略提升模型能力,尤其在数学、编程和长文本任务中表现优异。此外,SmolLM3引入双模式指令模型构建方案,平衡推理与非推理性能,支持工具调用与灵活场景适配。研究者可通过transformers库轻松部署,模型已在Hugging Face平台开放下载。
原文链接
Gemini 2.5 Pro模型在AI编程实践中,能够直接读取整个项目,带来全新的体验。长上下文能革新产品交互并开启全新应用场景。谷歌DeepMind的Nikolay Savinov指出,当前百万级token上下文质量尚未完美,盲目追求更大规模意义不大;随着成本下降,千万级token上下文将成为标准...
原文链接
MiniMax的好日子来了?
昨天凌晨,MiniMax正式开源了首个推理模型M1。尽管在基准测试中表现平平,但M1拥有业界最长的上下文能力:100万token输入与8万token输出。与此同时,MiniMax正在邀请用户测试其通用Agent。
错失先发优势后,这家曾被视为AI六小龙中最稳健的公司,正...
原文链接
OpenAI宣布GPT-4.1正式上线ChatGPT,Plus、Pro和Team用户现已可通过模型选择器访问。该模型具备强大的编码能力和指令遵循能力,知识截止日期更新至2024年6月。尽管表现优异,如高效完成复杂代码任务和准确推理问题,但许多用户对上下文窗口大小感到失望,ChatGPT中的GPT-4.1上下文长度仅为128k token,远低于API中的100万token。此外,部分用户反馈网页版运行特定提示词失败,而API Playground则成功执行。GPT-4.1在安全性评估中表现良好,但在越狱评估方面表现欠佳。有开发者认为其编码能力优于GPT-4.5,但仍期待GPT-5提供更多功能。时间:2025年5月16日。
原文链接
OpenAI推出GPT-4.1系列模型,主打性价比。该系列包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三个版本,均支持百万token上下文窗口。相比GPT-4.5,GPT-4.1在编码、指令遵循及长上下文理解等方面表现更优。例如,在SWE-bench Verified测试中,GPT-4.1得分54.6%,提升显著;在MMLU基准测试中,GPT-4.1 mini以87.5%的成绩超越GPT-4o的85.7%,且成本更低。此外,GPT-4.1在长上下文检索与多跳推理测试中亦表现优异。OpenAI计划用GPT-4.1取代GPT-4.5,后者将于2025年7月14日下架。尽管性价比提高,GPT-4.1仍逊于DeepSeek R1。
原文链接
《科创板日报》7日消息,Kimi开放平台于北京时间2025年4月7日0点对模型推理服务及上下文缓存价格进行了下调。此次价格调整基于Moonshot AI过去一年的技术积累与性能优化成果。具体调整方案详情可参考官方公告。
原文链接
近日,AI圈热议MCP(Model Context Protocol)概念,它被称为AI界的‘C口’,能够统一接口规范,让AI直接操控办公、设计等各类软件,实现‘嘴炮大师’向‘打工机器’的进化。用户只需提出需求,AI即可自动完成任务,如生成PDF、3D建模或创作音乐等。例如,测试者让AI在两分钟内生成1980年各国GDP排名的PDF文件,还成功实现‘用嘴建模’。MCP的核心在于统一工具接口,大幅降低技术门槛,但也面临工具支持有限、配置复杂及模型理解力不足等问题。尽管如此,MCP已受到广泛关注,多家大厂宣布接入,未来或推动AI助手普及,助力人类实现高效办公。
原文链接
3月26日,科技媒体testingcatalog报道,AI公司Anthropic计划升级Claude 3.7 Sonnet模型,将其上下文窗口从20万token大幅提升至50万token。这一升级可处理海量信息,解决上下文错乱问题,适用于政治文档分析、超长代码库管理和跨文档摘要生成等复杂任务。然而,超大上下文也可能增加内存和算力成本,实际效果有待验证。目前,该功能预计优先面向企业客户推出,例如编程工具Cursor已提供“Claude Sonnet 3.7 MAX”选项。Anthropic此举旨在抗衡Google Gemini等竞品的超长上下文优势。此次升级正值“氛围编程”趋势兴起,50万token窗口能支持更大规模项目开发,进一步降低编程门槛。
原文链接
加载更多

暂无内容