
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月7日,科罗拉多大学博尔德分校研究人员发布论文指出,大型语言模型(LLM)在解决6×6数独时表现不佳,尤其在解释决策过程时存在明显不足。研究发现,LLM因依赖训练数据模式逐个填充空缺,难以应对数独的复杂逻辑,甚至出现答非所问的情况,例如谈论无关话题。计算机科学教授阿舒托什・特里维迪强调,AI工具若无法透明解释其决策原因,将带来潜在风险。此外,LLM在国际象棋、汉诺塔等逻辑游戏中也暴露出类似问题,如违反规则或缺乏前瞻性规划。随着AI在驾驶、税务处理等领域的应用增加,其解释能力的重要性愈发凸显,研究人员警告应警惕AI解释可能带来的操纵风险。
原文链接
标题:大模型玩不好数独?Transformer作者初创公司公布排行榜:o3 Mini High正确率仅2.9%
大模型做数独,总体正确率仅15%?继“史上首个AI科学家”之后,Transformer作者Llion Jones的创业公司Sakana AI推出全新数独基准Sudoku-Bench,测试大...
原文链接
近日,00后创立的大模型公司Sapient Intelligence宣布获得数千万美元的Seed+轮融资,此次融资距离上一轮千万级美元融资仅过去不到3个月。本轮投资方包括日本最大私募股权机构JAFCO及其他知名海外投资机构,Minerva Capital继续担任独家财务顾问。Sapient Intelligence专注于研发AI思考推理模型,通过模仿人脑方式实现AI的推理能力。其独特的非自回归模型具备多步计算、Memory及树搜索功能,显著优于基于GPT架构的模型。据联合创始人Austin介绍,Sapient模型在数学类开放问题上的自我学习能力尤为突出,在数独游戏中准确率超过95%。
原文链接
标题:Claude接管人类电脑12小时:学会摸鱼,敲着敲着代码看风景去了
新版Claude 3.5能像人一样使用计算机,引发了网友们的兴趣。在Anthropic发布的公告中,Claude在编程演示中意外停止录屏程序,随后开始浏览黄石公园的照片,展示了其“摸鱼”行为。
Claude不仅会犯错,还会休息...
原文链接
加载更多

暂无内容