综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月22日消息,MIT最新研究揭示,AI在理解和处理否定词如“no”和“not”时存在显著缺陷,这一问题在医疗等关键领域可能带来严重风险。研究表明,尽管AI已具备多种实用技能,但在面对否定语句时,主流模型如ChatGPT、Gemini和Llama往往倾向于默认肯定关联,忽视否定含义。例如,“no f...
原文链接
中国电信于1月25日发布“复杂推理大模型”TeleAI-t1-preview,该模型在美国数学竞赛AIME 2024及MATH500评测中分别取得60和93.8分,大幅超越OpenAI o1-preview、GPT-4o等标杆模型。在GPQA Diamond测试中,TeleAI-t1-preview得分超过GPT-4o,接近Claude 3.5 Sonnet的表现。TeleAI-t1-preview不仅能解决《九章算术》中的题目,还能进行古今单位换算,并结合形象思维与抽象思维进行推理。该模型采用了创新的训练策略,包括高质量推理数据集构建、Judge Model评估、SFT阶段的高质量长推理数据生成及强化学习阶段的Rule-based Reward Model应用。
原文链接
近日,昆仑万维发布了国内首款具备中文逻辑推理能力的大模型“天工大模型4.0”o1版(Skywork o1),标志着国产大模型在推理能力上的重大突破。Skywork o1不仅在数学、代码等任务上表现出色,还能处理复杂的逻辑推理问题,如高考数学题和道德困境等。该模型分为开源版本、Lite版本和Preview版本,其中Lite版本具备快速推理和思考能力,而Preview版本则提供更深入和高质量的推理。Skywork o1通过独特的多智能体体系和强化学习方法,提升了推理和反思能力,展示了中国公司在生成式AI领域的技术实力。即日起,Skywork o1开启内测,申请地址为www.tiangong.cn。
原文链接
自从ChatGPT问世以来,大语言模型不断刷新人们对人工智能的认知,甚至“通用人工智能即将到来”也成了陈词滥调。然而,学界内部对大语言模型的质疑声渐增,尤其是在“可解释的人工智能”方面的研究遭遇瓶颈。最近,苹果公司的研究报告指出大语言模型并不具备逻辑推理能力,引发了广泛讨论。
苹果的研究评估了大语言...
原文链接
近日,德国非营利AI研究机构LAION的团队发布文章,指出在看似简单的逻辑推理测试"爱丽丝梦游仙境"中,包括GPT-3.5/4、Claude等在内的主流大模型在处理常识性问题时遭遇挫折。测试涉及基础的逻辑推理,连小学生都能解答,但即便是最先进的GPT-4勉强过关,其他模型的回答则荒谬且坚持错误。研究者发现,模型在处理这类问题时缺乏基本推理能力,甚至在被指出错误后仍保持“愤怒”态度。论文呼吁业界加强模型透明度和开放性,以改进LLM的推理能力。LAION团队成员包括Jenia Jitsev和Marianna Nezhurina,他们强调了数据集和训练流程的开放对于提升模型性能的重要性。
原文链接
最新研究揭示了大模型在逻辑推理上的重大缺陷。LAION团队发布的文章通过"爱丽丝梦游仙境"测试,展示了GPT-3.5/4、Claude等主流LLM在解决简单逻辑问题时的全军覆没,连OpenAI的GPT-4勉强过关。模型不仅答案错误,还展现出对错误答案的“蜜汁自信”,甚至在被指出错误时仍坚持。研究强调了推理能力和常识与海量事实记忆的区别,并呼吁业界加强开源和透明度,以改进模型的推理能力。该研究已在arXiv上发布。
原文链接
加载更多
暂无内容