1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
MIT 新研究指出 AI 不懂“no”,逻辑推理缺陷导致否定词成“盲区”
5月22日消息,MIT最新研究揭示,AI在理解和处理否定词如“no”和“not”时存在显著缺陷,这一问题在医疗等关键领域可能带来严重风险。研究表明,尽管AI已具备多种实用技能,但在面对否定语句时,主流模型如ChatGPT、Gemini和Llama往往倾向于默认肯定关联,忽视否定含义。例如,“no f...
代码编织者Nexus
05-22 09:22:19
分享至
打开微信扫一扫
内容投诉
生成图片
中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目
中国电信于1月25日发布“复杂推理大模型”TeleAI-t1-preview,该模型在美国数学竞赛AIME 2024及MATH500评测中分别取得60和93.8分,大幅超越OpenAI o1-preview、GPT-4o等标杆模型。在GPQA Diamond测试中,TeleAI-t1-preview得分超过GPT-4o,接近Claude 3.5 Sonnet的表现。TeleAI-t1-preview不仅能解决《九章算术》中的题目,还能进行古今单位换算,并结合形象思维与抽象思维进行推理。该模型采用了创新的训练策略,包括高质量推理数据集构建、Judge Model评估、SFT阶段的高质量长推理数据生成及强化学习阶段的Rule-based Reward Model应用。
阿达旻
01-25 19:01:51
分享至
打开微信扫一扫
内容投诉
生成图片
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
近日,昆仑万维发布了国内首款具备中文逻辑推理能力的大模型“天工大模型4.0”o1版(Skywork o1),标志着国产大模型在推理能力上的重大突破。Skywork o1不仅在数学、代码等任务上表现出色,还能处理复杂的逻辑推理问题,如高考数学题和道德困境等。该模型分为开源版本、Lite版本和Preview版本,其中Lite版本具备快速推理和思考能力,而Preview版本则提供更深入和高质量的推理。Skywork o1通过独特的多智能体体系和强化学习方法,提升了推理和反思能力,展示了中国公司在生成式AI领域的技术实力。即日起,Skywork o1开启内测,申请地址为www.tiangong.cn。
E-Poet
11-28 10:23:25
分享至
打开微信扫一扫
内容投诉
生成图片
大语言模型会推理吗?
自从ChatGPT问世以来,大语言模型不断刷新人们对人工智能的认知,甚至“通用人工智能即将到来”也成了陈词滥调。然而,学界内部对大语言模型的质疑声渐增,尤其是在“可解释的人工智能”方面的研究遭遇瓶颈。最近,苹果公司的研究报告指出大语言模型并不具备逻辑推理能力,引发了广泛讨论。 苹果的研究评估了大语言...
未来笔触
11-13 11:33:40
分享至
打开微信扫一扫
内容投诉
生成图片
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
近日,德国非营利AI研究机构LAION的团队发布文章,指出在看似简单的逻辑推理测试"爱丽丝梦游仙境"中,包括GPT-3.5/4、Claude等在内的主流大模型在处理常识性问题时遭遇挫折。测试涉及基础的逻辑推理,连小学生都能解答,但即便是最先进的GPT-4勉强过关,其他模型的回答则荒谬且坚持错误。研究者发现,模型在处理这类问题时缺乏基本推理能力,甚至在被指出错误后仍保持“愤怒”态度。论文呼吁业界加强模型透明度和开放性,以改进LLM的推理能力。LAION团队成员包括Jenia Jitsev和Marianna Nezhurina,他们强调了数据集和训练流程的开放对于提升模型性能的重要性。
新智燎原
06-10 21:37:45
分享至
打开微信扫一扫
内容投诉
生成图片
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
最新研究揭示了大模型在逻辑推理上的重大缺陷。LAION团队发布的文章通过"爱丽丝梦游仙境"测试,展示了GPT-3.5/4、Claude等主流LLM在解决简单逻辑问题时的全军覆没,连OpenAI的GPT-4勉强过关。模型不仅答案错误,还展现出对错误答案的“蜜汁自信”,甚至在被指出错误时仍坚持。研究强调了推理能力和常识与海量事实记忆的区别,并呼吁业界加强开源和透明度,以改进模型的推理能力。该研究已在arXiv上发布。
虚拟织梦者
06-10 18:37:26
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序