逻辑推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

MIT 新研究指出 AI 不懂“no”，逻辑推理缺陷导致否定词成“盲区”

5月22日消息，MIT最新研究揭示，AI在理解和处理否定词如“no”和“not”时存在显著缺陷，这一问题在医疗等关键领域可能带来严重风险。研究表明，尽管AI已具备多种实用技能，但在面对否定语句时，主流模型如ChatGPT、Gemini和Llama往往倾向于默认肯定关联，忽视否定含义。例如，“no f...

原文链接

代码编织者Nexus

05-22 09:22:19

分享至

打开微信扫一扫

内容投诉

生成图片

中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

中国电信于1月25日发布“复杂推理大模型”TeleAI-t1-preview，该模型在美国数学竞赛AIME 2024及MATH500评测中分别取得60和93.8分，大幅超越OpenAI o1-preview、GPT-4o等标杆模型。在GPQA Diamond测试中，TeleAI-t1-preview得分超过GPT-4o，接近Claude 3.5 Sonnet的表现。TeleAI-t1-preview不仅能解决《九章算术》中的题目，还能进行古今单位换算，并结合形象思维与抽象思维进行推理。该模型采用了创新的训练策略，包括高质量推理数据集构建、Judge Model评估、SFT阶段的高质量长推理数据生成及强化学习阶段的Rule-based Reward Model应用。

原文链接

阿达旻

01-25 19:01:51

分享至

打开微信扫一扫

内容投诉

生成图片

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

近日，昆仑万维发布了国内首款具备中文逻辑推理能力的大模型“天工大模型4.0”o1版（Skywork o1），标志着国产大模型在推理能力上的重大突破。Skywork o1不仅在数学、代码等任务上表现出色，还能处理复杂的逻辑推理问题，如高考数学题和道德困境等。该模型分为开源版本、Lite版本和Preview版本，其中Lite版本具备快速推理和思考能力，而Preview版本则提供更深入和高质量的推理。Skywork o1通过独特的多智能体体系和强化学习方法，提升了推理和反思能力，展示了中国公司在生成式AI领域的技术实力。即日起，Skywork o1开启内测，申请地址为www.tiangong.cn。

原文链接

E-Poet

11-28 10:23:25

分享至

打开微信扫一扫

内容投诉

生成图片

大语言模型会推理吗？

自从ChatGPT问世以来，大语言模型不断刷新人们对人工智能的认知，甚至“通用人工智能即将到来”也成了陈词滥调。然而，学界内部对大语言模型的质疑声渐增，尤其是在“可解释的人工智能”方面的研究遭遇瓶颈。最近，苹果公司的研究报告指出大语言模型并不具备逻辑推理能力，引发了广泛讨论。苹果的研究评估了大语言...

原文链接

未来笔触

11-13 11:33:40

分享至

打开微信扫一扫

内容投诉

生成图片

近日，德国非营利AI研究机构LAION的团队发布文章，指出在看似简单的逻辑推理测试"爱丽丝梦游仙境"中，包括GPT-3.5/4、Claude等在内的主流大模型在处理常识性问题时遭遇挫折。测试涉及基础的逻辑推理，连小学生都能解答，但即便是最先进的GPT-4勉强过关，其他模型的回答则荒谬且坚持错误。研究者发现，模型在处理这类问题时缺乏基本推理能力，甚至在被指出错误后仍保持“愤怒”态度。论文呼吁业界加强模型透明度和开放性，以改进LLM的推理能力。LAION团队成员包括Jenia Jitsev和Marianna Nezhurina，他们强调了数据集和训练流程的开放对于提升模型性能的重要性。

原文链接

新智燎原

06-10 21:37:45

分享至

打开微信扫一扫

内容投诉

生成图片

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

最新研究揭示了大模型在逻辑推理上的重大缺陷。LAION团队发布的文章通过"爱丽丝梦游仙境"测试，展示了GPT-3.5/4、Claude等主流LLM在解决简单逻辑问题时的全军覆没，连OpenAI的GPT-4勉强过关。模型不仅答案错误，还展现出对错误答案的“蜜汁自信”，甚至在被指出错误时仍坚持。研究强调了推理能力和常识与海量事实记忆的区别，并呼吁业界加强开源和透明度，以改进模型的推理能力。该研究已在arXiv上发布。

原文链接