综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年1月17日,OpenAI的GPT-5.2 Pro独立证明了一道由保罗·埃尔德什和罗纳德·格雷厄姆于1980年提出的数论猜想,该猜想涉及同余覆盖系统与自然密度的关系。菲尔兹奖得主陶哲轩验证了这一证明,并评价其为‘最明确的第一类结果’,且未犯任何数学错误。与此同时,网友KoishiChan发现该问题可通过1936年和1966年的两个经典定理直接解决,揭示了文献传播中的盲点。陶哲轩提醒,评估AI数学能力需警惕报告偏差,当前AI在埃尔德什问题上的真实成功率仅为1%-2%,但仍具研究价值。
原文链接
1月18日,Eclipse创始人Neel Somani在X平台发文称,使用OpenAI最新高级模型GPT-5.2 Pro破解了一个著名的Erdős数学难题。数学家陶哲轩对此表示认可,认为这是‘AI解决开放问题的最明确案例’,并强调解答需谨慎理解。OpenAI总裁布罗克曼转发评论,称其为数学与科学进步的重要标志。GPT-5.2 Pro于2025年发布,擅长复杂任务推理与结构化输出,尤其在草拟证明和快速修改数学文本方面表现突出,但仍需人类专家校验结果。Erdős问题由匈牙利数学家保罗·埃尔德什提出,涵盖多个领域,难度分布广泛。陶哲轩指出,许多问题可能只是未被充分研究。
原文链接
2026年1月15日,OpenAI宣布通过Responses API向开发者开放其最强代码模型GPT-5.2-Codex。该模型于2025年12月发布,是目前最先进的智能体编程AI,专为解决复杂软件工程问题设计。其核心突破包括“上下文压缩”技术和针对“智能体工作流”的深度优化,能够自主执行构建新功能、重构代码和排查漏洞等任务。OpenAI称其为“最具网络安全能力”的模型,在代码安全审计方面表现突出。实战案例中,AI代码编辑器Cursor利用GPT-5.2-Codex连续运行一周,生成超300万行代码,成功从零构建了一个功能完整的Web浏览器,包含Rust编写的渲染引擎及HTML解析等功能。该模型已在Cursor、GitHub等主流工具中支持,并在多项基准测试中取得领先成绩。
原文链接
香港科技大学张军、孟子立教授团队近日进行了一场别开生面的实验:让一副搭载ChatGPT-5.2模型的AI眼镜在《计算机网络原理》期末考试中“作弊”。实验结果显示,AI眼镜仅用30分钟完成试卷,获得92.5分,超越95%的学生。实验通过乐奇Rokid AI眼镜拍摄题目,经云端大模型推理后将答案显示在眼镜屏幕上。尽管存在功耗和摄像头清晰度问题,但其高效稳定的答题表现引发对传统教学评估体系的反思。研究指出,现有考试过于注重标准答案,忽视了创新能力、批判性思维等复杂能力的评估。专家建议未来教育应更多关注学习过程与思考路径,而非单一结果。
原文链接
12月11日,OpenAI发布ChatGPT-5.2,称其为首个达到或超越人类专家水平的模型。然而,12月18日外媒Futurism报道,该模型在生成按字母顺序排列的动物挂图时错误频出。首席策略师彼得・贝雷津测试发现,模型遗漏字母、插图异常,如肢体怪异的袋鼠和长两条尾巴的鬣蜥,且多次重复错误。例如,生成内容仅含24或25个字母,‘U’和‘Z’常被忽略,结尾出现重复‘X’,插图与描述不符(斑马代替X光鱼)。此外,提示语被直接混入生成内容。这一问题引发对‘专家水平’说法的质疑,贝雷津调侃OpenAI需加大投入。
原文链接
12月19日,OpenAI发布最强智能体编程模型GPT-5.2-Codex,专为解决复杂软件工程问题设计。该模型基于GPT-5.2通用智能,融合GPT-5.1-Codex-Max终端操作能力,引入“上下文压缩”技术,大幅提升代码重构与迁移效率。其在Windows 10/11环境中优化显著,并能精准解读技术图表、UI截图及设计草图,快速将原型图转化为功能代码。GPT-5.2-Codex在SWE-Bench Pro等权威测试中刷新纪录,可独立完成代码库导航到Pull Request创建的全流程工作。案例显示,它在网络安全领域表现突出,协助Privy公司工程师挖掘React组件中的未知漏洞。为应对潜在风险,OpenAI启动“可信访问试点计划”,向安全专家开放高权限访问。目前,该模型已向ChatGPT付费用户全量推送,API访问权限将逐步开放。
原文链接
12月19日,OpenAI正式发布GPT-5.2-Codex,称其为迄今最先进的智能体编码模型,专为复杂软件工程任务优化。新模型基于GPT-5.2,针对编码场景深度改进,包括通过上下文压缩提升长程任务执行能力、在代码重构与迁移中表现更优、增强Windows环境兼容性,以及显著提升网络安全防御能力。这一更新标志着AI在编程领域的进一步突破,为开发者提供更高效工具。
原文链接
12月18日凌晨,谷歌发布Gemini 3 Flash模型,定位高效且低成本,同时保留旗舰级推理能力,适合日常场景。测试显示,该模型性能全面超越前代Gemini 2.5 Pro,并在多项对比中与OpenAI的GPT-5.2相当。例如,在高难度测试中,双方分差不足1%;在多模态评估中,Gemini 3 Flash以81.2%胜过GPT-5.2的79.5%。谷歌已将Gemini 3 Flash设为默认模型,免费开放给全球用户,显著提升日常AI体验。此外,美国用户可通过特定设置生成图像。此次发布被视为谷歌对OpenAI的有力反击。
原文链接
2025年12月,OpenAI发布GPT-5.2,定价比DeepSeek贵400倍,较谷歌Gemini 3 Pro高近10倍。新模型在专业知识、逻辑推理和生产力方面表现突出,尤其在九个领域44个行业的专家测试中,7成任务可媲美或超越人类表现。其新增的GDPval测试显示,GPT-5.2能高效完成复杂工作,如数据统计、表格绘制等,并降低代码生成幻觉概率38%。此外,上下文理解能力显著增强,支持256K文本长度的成功率接近100%。不过,图像识别精度逊于Gemini 3 Pro,审美设计也较为平庸。未来趋势显示,各AI模型或将专注不同领域,如Gemini偏全模态,GPT强于逻辑推理,Claude擅长代码与写作。下一轮竞争预计由Anthropic接棒。
原文链接
12月15日,中信建投发布研报称,OpenAI推出GPT-5.2模型,为专业领域最强模型系列。同时,美国将批准英伟达向中国出口H200芯片。中信建投继续看好AI算力板块,建议关注北美链和国内链机会。国内链公司前期调整较多,而北美链光模块公司近期屡创新高。随着国产GPU能力提升、供给增加及H200芯片的放开,国内AI算力基础设施部署有望加速。
原文链接
加载更多
暂无内容