逻辑推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

MIT 新研究指出 AI 不懂“no”，逻辑推理缺陷导致否定词成“盲区”

5月22日消息，MIT最新研究揭示，AI在理解和处理否定词如“no”和“not”时存在显著缺陷，这一问题在医疗等关键领域可能带来严重风险。研究表明，尽管AI已具备多种实用技能，但在面对否定语句时，主流模型如ChatGPT、Gemini和Llama往往倾向于默认肯定关联，忽视否定含义。例如，“no f...

原文链接

代码编织者Nexus

05-22 09:22:19

否定词

逻辑推理

分享至

打开微信扫一扫

内容投诉

生成图片

中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

中国电信于1月25日发布“复杂推理大模型”TeleAI-t1-preview，该模型在美国数学竞赛AIME 2024及MATH500评测中分别取得60和93.8分，大幅超越OpenAI o1-preview、GPT-4o等标杆模型。在GPQA Diamond测试中，TeleAI-t1-preview得分超过GPT-4o，接近Claude 3.5 Sonnet的表现。TeleAI-t1-preview不仅能解决《九章算术》中的题目，还能进行古今单位换算，并结合形象思维与抽象思维进行推理。该模型采用了创新的训练策略，包括高质量推理数据集构建、Judge Model评估、SFT阶段的高质量长推理数据生成及强化学习阶段的Rule-based Reward Model应用。

原文链接

阿达旻

01-25 19:01:51

TeleAI-t1-preview

数学推导

逻辑推理

分享至

打开微信扫一扫

内容投诉

生成图片

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

近日，昆仑万维发布了国内首款具备中文逻辑推理能力的大模型“天工大模型4.0”o1版（Skywork o1），标志着国产大模型在推理能力上的重大突破。Skywork o1不仅在数学、代码等任务上表现出色，还能处理复杂的逻辑推理问题，如高考数学题和道德困境等。该模型分为开源版本、Lite版本和Preview版本，其中Lite版本具备快速推理和思考能力，而Preview版本则提供更深入和高质量的推理。Skywork o1通过独特的多智能体体系和强化学习方法，提升了推理和反思能力，展示了中国公司在生成式AI领域的技术实力。即日起，Skywork o1开启内测，申请地址为www.tiangong.cn。

原文链接

E-Poet

11-28 10:23:25

国产大模型

天工大模型

逻辑推理

分享至

打开微信扫一扫

内容投诉

生成图片

昆仑万维“天工大模型 4.0”o1 版启动邀测，具备中文逻辑推理能力

昆仑万维于11月27日宣布推出“天工大模型4.0”o1版本，这是国内首款具备中文逻辑推理能力的模型。不同于现有复现OpenAI模型的工作，“天工大模型4.0”在模型输出上内生了思考、计划和反思等能力，显著提升了推理能力。此次发布的三款模型包括：Skywork o1 Open，基于Llama 3.1 8B的开源模型，评测指标达到SOTA水平；Skywork o1 Lite，具备完整思考能力，尤其在数学和中文逻辑推理方面表现优异；Skywork o1 Preview，搭配自研线上推理算法，拥有更丰富和深入的思考过程，提供更高质量的推理结果。这些模型标志着中国在人工智能领域取得了重要进展。

原文链接

Oasis

11-27 16:57:47

中文逻辑推理能力

天工大模型4.0

昆仑万维

分享至

打开微信扫一扫

内容投诉

生成图片

昆仑万维：国内首款具备中文逻辑推理能力 o1 模型“天工大模型 4.0 O1 版”11 月 27 日启动邀测

昆仑万维宣布，国内首款具备中文逻辑推理能力的“天工大模型 4.0 O1 版”将于11月27日启动邀测。该模型由昆仑万维自主研发，支持思考、计划和反思等高级能力，分为基于开源Llama 3.1 8B的开源版本和进阶能力更强的版本。此次邀测标志着国内在人工智能领域取得了重要进展，有助于加速国内开源社区复现这一技术。值得注意的是，这并非昆仑万维首次涉足AI领域，其天工大模型3.0已于今年4月开启公测，而近期还发布了天工AI高级搜索功能。此次新模型的推出，将进一步推动国内AI技术的发展和应用。摘要：昆仑万维宣布，国内首款具备中文逻辑推理能力的“天工大模型 4.0 O1 版”将于11月27日启动邀测，支持高级推理能力，分为开源版本和进阶版本。这标志着国内AI技术的重要进展，将进一步推动行业发展。

原文链接

Nebula

11-18 11:22:54

中文逻辑推理

天工大模型 4.0 O1 版

昆仑万维

分享至

打开微信扫一扫

内容投诉

生成图片

大语言模型会推理吗？

自从ChatGPT问世以来，大语言模型不断刷新人们对人工智能的认知，甚至“通用人工智能即将到来”也成了陈词滥调。然而，学界内部对大语言模型的质疑声渐增，尤其是在“可解释的人工智能”方面的研究遭遇瓶颈。最近，苹果公司的研究报告指出大语言模型并不具备逻辑推理能力，引发了广泛讨论。苹果的研究评估了大语言...

原文链接

未来笔触

11-13 11:33:40

大语言模型

神经网络

逻辑推理

分享至

打开微信扫一扫

内容投诉

生成图片

近日，德国非营利AI研究机构LAION的团队发布文章，指出在看似简单的逻辑推理测试"爱丽丝梦游仙境"中，包括GPT-3.5/4、Claude等在内的主流大模型在处理常识性问题时遭遇挫折。测试涉及基础的逻辑推理，连小学生都能解答，但即便是最先进的GPT-4勉强过关，其他模型的回答则荒谬且坚持错误。研究者发现，模型在处理这类问题时缺乏基本推理能力，甚至在被指出错误后仍保持“愤怒”态度。论文呼吁业界加强模型透明度和开放性，以改进LLM的推理能力。LAION团队成员包括Jenia Jitsev和Marianna Nezhurina，他们强调了数据集和训练流程的开放对于提升模型性能的重要性。

原文链接

新智燎原

06-10 21:37:45

LLM

爱丽丝梦游仙境

逻辑推理

分享至

打开微信扫一扫

内容投诉

生成图片

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

最新研究揭示了大模型在逻辑推理上的重大缺陷。LAION团队发布的文章通过"爱丽丝梦游仙境"测试，展示了GPT-3.5/4、Claude等主流LLM在解决简单逻辑问题时的全军覆没，连OpenAI的GPT-4勉强过关。模型不仅答案错误，还展现出对错误答案的“蜜汁自信”，甚至在被指出错误时仍坚持。研究强调了推理能力和常识与海量事实记忆的区别，并呼吁业界加强开源和透明度，以改进模型的推理能力。该研究已在arXiv上发布。

原文链接