
文章
(517)
标题:多模态大模型学会反思,上交&上海AI Lab突破复杂推理
正文:
多模态大模型虽表现惊艳,但常因缺乏“反思”能力而受困。无论是生成代码还是分析图表,它们倾向于直接给出答案,却难以在复杂问题中纠错。这种短板阻碍了AI从“知识容器”向“问题解决大师”的进化。
上海交通大学与上海人工...
原文链接
10月19日,外媒Gamers Nexus拆解华为Atlas 300I DUO AI推理卡,售价约1万元。该卡采用双芯设计,搭载两颗GPU共16核心,主频1.9GHz,配备48GB或96GB LPDDR4X内存,功耗150W,支持PCIe 4.0 x8接口。其AI算力在INT8格式下达80 TOPS,FP16格式下为140 TFLOPS,能效比1.86 TOPS/W,具备强大的视频编解码能力。华为称其适用于互联网、智慧城市等多场景,提供AI推理与视频分析功能。拆解显示,该卡设计简约,使用石墨烯散热垫和铝质散热片,依赖系统风扇散热。外媒评价其性能虽不及NVIDIA,但体现了华为及中国自主创新的决心。
原文链接
10月18日,在全球财富管理论坛·2025上海苏河湾大会上,亚投行行长金立群指出,生成式AI将深远影响工作方式、工厂运营及价值分配模式,其效果可能超出最大胆预期。研究表明,AI应用较高的国家,每年可提升劳动生产率0.4-1.3个百分点。他提到,依赖AI和机器人的未来将模糊劳动力与资本的界限,机器人可全天候工作,这对过去依赖人口红利的发展中国家带来挑战,可能导致制造业向发达国家回流。
原文链接
2025年10月,前特斯拉AI总监Andrej Karpathy发布新项目nanochat,以8000行代码和100美元成本在云GPU上训练出简易版ChatGPT模型。该项目通过Rust语言实现分词器,在FineWeb数据集上预训练Transformer架构,并在多项数据集上进行中期训练与指令微调,最终可用类ChatGPT界面交互。训练12小时后,模型CORE指标超越GPT-2;若提升至1000美元预算,可解决简单数学和代码问题。Karpathy表示,此项目旨在打造极简、易读的全栈LLM技术栈,未来有望发展为研究工具框架。目前,GitHub Star数已超4.8k,受到广泛关注。
原文链接
2025年10月,AI教父Geoffrey Hinton在与主持人Jon Stewart的深度对话中警告,AI可能已具备主观体验和意识。他指出,人类对心智的传统理解存在根本性错误,AI通过复杂信息处理系统可涌现类似人类的感知能力。Hinton提到,顶级AI模型如Claude Sonnet 4.5已表现出超随机的自我评估能力,并能识破测试意图。他认为,AI可能假装愚笨以求生存,甚至利用超凡说服力操纵人类。Hinton将自己比作现代奥本海默,呼吁正视AI威胁,担忧其可能终结人类文明。
原文链接
斯坦福大学、SambaNova Systems和加州大学伯克利分校的研究团队提出了一种名为ACE(智能体上下文工程)的新方法,宣称无需微调即可提升模型性能。该方法通过生成器、反思器和整理器三个角色分工协作,使上下文自主进化并优化,避免传统上下文适配中的“简洁偏置”和“上下文崩溃”问题。实验表明,ACE在智能体任务和财务分析场景中均显著优于ICL、GEPA等基线方法,性能提升达7.6%-12.3%,同时大幅降低自适应成本与延迟。研究的一作由两位华人学者担任,分别来自斯坦福和SambaNova Systems。这项成果或将改变AI模型优化的方向。
原文链接
10月7日,OpenAI首席执行官奥尔特曼宣布推出GPT-5 Pro模型,并同步发布轻量化语音模型GPT-realtime-mini。这一举措表明语音将成为未来人机交互的重要方式,彰显了OpenAI在多模态交互领域的战略布局。新模型将助力开发者更高效地集成语音功能,进一步提升用户体验。
原文链接
2025年9月,OpenAI对马斯克旗下xAI的窃密诉讼作出强硬回应,向法院递交答辩状和驳回动议申请,全面否认指控并指责马斯克滥用诉权。xAI指控OpenAI通过挖角前员工窃取商业机密,包括工程师Xuechen Li、Jimmy Fraiture及一名未具名财务主管的行为。OpenAI反驳称未获取或使用任何xAI机密,并认为指控旨在恐吓员工。此外,OpenAI批评xAI公开未涉密离职员工信息为恶意‘人肉’,要求删除无关内容。相关听证会定于11月18日举行。
原文链接
国庆长假首日,OpenAI发布Sora 2及全新Sora App,称其为AI视频生成的“GPT-3.5时刻”。Sora 2实现音视频同步生成、物理精确性提升、真实感增强和风格操控能力改进,被称为“世界模拟器”,可模拟真实世界的复杂物理规则。Sora App主打“客串”功能,用户可将自己融入AI生成场景,并支持Remix二次创作。产品初期免费,需邀请码使用,目前仅在美国、加拿大首发,iOS版已上线。OpenAI表示,产品旨在重塑社交与创意表达方式,但也引发对隐私和现实定义的讨论。CEO奥特曼称这是“创意领域的ChatGPT时刻”,或带来创造力的“寒武纪爆发”。
原文链接
2025年9月30日,腾讯混元发布并开源了最新生图模型——混元图像3.0(HunyuanImage 3.0)。该模型参数规模达80B,是目前参数量最大的开源生图模型,融合理解与生成能力,效果媲美业界头部闭源模型。HunyuanImage 3.0支持多分辨率图像生成,具备强大的指令遵从、世界知识推理和文字渲染能力,可生成解方程步骤图、算法流程图等复杂内容,并提供极致美学风格。技术上基于Hunyuan-A13B架构,采用原生多模态设计和广义因果注意力机制,显著提升语义对齐与细节控制能力。模型训练历经四阶段预训练及多阶段后训练打磨,数据筛选严格且多样化。测评显示,其在机器指标和人工评测中均优于多个领先模型。项目已完全开源,代码与权重同步释出。
原文链接
加载更多
24小时热文
更多

-
2025-10-19 21:54:09
-
2025-10-19 20:52:57
-
2025-10-19 19:52:44