模型 - AI优秘圈

全网骂Claude变笨，Anthropic下场揭秘：坑你的不是模型

近日，针对全网吐槽Claude Code代码助手突然变笨，Anthropic官方发文揭秘：问题往往不在模型本身，而在努力度设置。今年3月，官方为降低系统延迟将努力度默认档位调低，引发模型变笨的广泛误会，4月已恢复正常。官方指出，模型决定“会不会”，努力度决定“干多彻底”。小模型开启高努力度，完全可能胜过强模型开启低努力度。官方建议，人工智能编程正从拼模型转向调度智能体，用户应根据任务难度合理搭配模型与努力度，让AI真正卖力干活，同时大幅节省算力成本。

原文链接

QuantumHacker

07-13 12:07:15

分享至

打开微信扫一扫

内容投诉

生成图片

“VLA和世界模型都不是终局，会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026

2026年5月，在中国AIGC产业峰会上，蚂蚁灵波科技首席科学家沈宇军提出AI 2.0下半场将从AIGC（内容生成）转向AIGA（动作生成），迈向物理世界。他认为，机器人领域数据匮乏，单独的VLA和世界模型都不是具身智能的终局，二者未来将融合，催生专属于物理世界的模型。沈宇军预测，1-2年内会出现标杆案例推动模型投产，2-3年后批量复制至更多产业，最终机器人将进入家庭。他还指出，当人人能为机器人产生数据时，将迎来具身智能的“ChatGPT时刻”，这一节点可能在2028年左右实现。蚂蚁灵波希望成为机器人时代的通用大脑，类似安卓系统。

原文链接

E-Poet

05-25 15:37:54

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI正式发布GPT-5.5

2026年4月24日讯，OpenAI于周五凌晨正式发布最新一代大模型GPT-5.5。在第三方评测机构Artificial Analysis Intelligence Index的测试中，GPT-5.5在同等输出token量下智能得分最高，且token总消耗显著低于其他模型。目前，该模型已向ChatGPT付费用户开放，而更高级别的GPT-5.5 Pro则面向Pro、Business和Enterprise用户开放。API即将上线，但价格大幅上涨至$5/$30（每百万Token），较GPT-5.4翻了三倍。这一更新引发广泛关注，标志着AI技术在性能与成本平衡上的进一步突破。

原文链接

心智奇点

04-24 09:02:17

分享至

打开微信扫一扫

内容投诉

生成图片

预测这件事，人类越犹豫，这个大模型越有优势

正文：2026年3月，UniPat AI推出预测智能基础设施Echo，其核心模型EchoZ-1.0在General AI Prediction Leaderboard上以Elo 1034.2排名第一，领先Google和Anthropic等顶级大模型。Echo通过动态评测引擎、面向未来事件的训练范式（Train-on-Future）和公开可验证的数据体系，解决了传统预测领域难以验证的问题。数据显示，在治理、长期预测及高不确定性场景中，EchoZ胜率高达57.9%-63.2%，尤其在人类犹豫不决的情况下表现更优。此外，Echo采用自动化问题生成、对战机制和持续更新的评测系统，确保公平性和动态性。UniPat计划将EchoZ-1.0能力封装为AI-native Prediction API，支持结构化预测报告输出，或将应用于金融市场、企业战略等领域。官网：

原文链接

智慧轨迹

03-30 16:56:49

分享至

打开微信扫一扫

内容投诉

生成图片

语境才是真正的护城河

2026年1月，AI领域热议文章《Context is the new Moat》指出，随着Claude、GPT、Gemini等先进模型的商品化，真正的竞争优势已从模型本身转向语境。作者Shubham Saboo强调，语境是结构化的知识，包括用户洞察、领域特定模式、历史经验等，无法被简单复制或下载。通过实例对比，相同模型因语境不同产生显著差异，证明语境才是护城河。此外，语境可复利增长，团队通过持续记录和优化语境文档，能大幅提升AI输出质量。目前主流AI工具均支持持久化语境文件，自动化加载使模型更适应具体业务需求。文章建议开发者从今天起建立语境文档，持续积累案例与经验，以构建长期竞争优势。

原文链接

智慧轨迹

01-17 16:34:25

分享至

打开微信扫一扫

内容投诉

生成图片

Gemini 逆风翻盘的18个关键

2025年，DeepMind CTO Koray Kavukcuoglu在访谈中揭示了Google过去两年如何从落后到追赶的转变。他坦言，两年前Google在大模型领域远远落后，关键转折在于承认问题并重新构建训练、产品和工程方式。Gemini 3的成功得益于用户界面优化、任务链路稳定及真实数据反馈，使模型更贴近用户需求。此外，Google将安全融入训练过程，并通过统一多模态模型提升对复杂场景的理解能力。Koray强调，未来模型发展仍充满不确定性，但Google正通过基础设施优势与跨部门协作，推动深层推理和多步执行能力的发展。这标志着Google从科研向工程与产品的全面转型。

原文链接

像素宇宙

11-27 17:46:16

分享至

打开微信扫一扫

内容投诉

生成图片

实测新版LiblibAI：终于把模型、生图、工作流塞进一个碗了

2025年10月，LiblibAI 2.0版本上线，从模型社区转型为一站式AIGC创作平台。新版本整合了热门AI模型如Qwen-Image、Seedream 4.0及Midjourney V7，并新增视频特效功能，支持多种创意玩法。用户可在平台上完成从模型选择到内容生成的全流程操作，极大提升了创作效率。然而，部分用户反馈出图速度慢、页面卡顿等问题仍有待优化。LiblibAI曾创下一年四轮融资记录，其海外子公司推出的AI设计工具Lovart也备受关注。创始人陈冕曾任职剪映商业化负责人，擅长构建用户-内容闭环。此次升级或将推动LiblibAI向“创作者AI全家桶”迈进，但用户信任仍需持续验证。

原文链接

虚拟微光

10-15 10:32:33

分享至

打开微信扫一扫

内容投诉

生成图片

阿里巴巴正式推出Qwen3-Max

9月24日，阿里巴巴正式发布Qwen3-Max，这是其迄今规模最大、能力最强的模型。预览版Qwen3-Max-Instruct在LMArena文本排行榜中排名第三，超越GPT-5-Chat。正式版本在代码能力和智能体任务方面进一步提升，在知识、推理、编程、指令遵循等多领域基准测试中均达到业界领先水平。

原文链接

代码编织者Nexus

09-24 11:39:11

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

2025年9月，OpenAI发布论文《语言模型为何会产生幻觉？》，探讨大语言模型产生幻觉的原因。论文指出，当前训练与评估机制更倾向于奖励‘猜对’而非承认不确定，导致模型在不确定问题上冒险猜测。GPT-5因‘不爱猜测’在测试中表现不佳，引发网友质疑：是否为GPT-5‘挽尊’而重新定义评估基准？OpenAI提议更新评估机制，鼓励模型表达不确定性并惩罚随意猜测。论文还分析了幻觉的普遍性、成因及应对策略，涉及模型预测本质、语言局限性等哲学讨论。网友热议内容是否全为幻觉及实际应用中的平衡问题。参考链接包括OpenAI论文及相关社区讨论。

原文链接

AI奇点纪元

09-14 14:43:28

分享至

打开微信扫一扫

内容投诉

生成图片

那天，AI大模型想起了，被「失忆」所束缚的枷锁

2025年9月，AI大模型的记忆能力成为技术热点。谷歌Gemini、Anthropic Claude和OpenAI的ChatGPT等主流模型相继推出记忆功能，支持跨对话记录用户偏好与历史信息，提升交互连贯性。字节跳动联合高校发布多模态智能体M3-Agent，扩展记忆至视频、音频数据。此外，创业公司如Letta AI、记忆张量科技及RockAI提出MemGPT、MemOS和Yan 2.0等创新方案，探索参数化与分层式记忆架构。未来趋势显示，AI记忆将向多模态、终身学习和社会化协作方向发展，推动通用人工智能（AGI）实现新突破。

原文链接

代码编织者Nexus

09-01 16:21:15

分享至

打开微信扫一扫

内容投诉

生成图片