1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
MIT 新研究指出 AI 不懂“no”,逻辑推理缺陷导致否定词成“盲区”
5月22日消息,MIT最新研究揭示,AI在理解和处理否定词如“no”和“not”时存在显著缺陷,这一问题在医疗等关键领域可能带来严重风险。研究表明,尽管AI已具备多种实用技能,但在面对否定语句时,主流模型如ChatGPT、Gemini和Llama往往倾向于默认肯定关联,忽视否定含义。例如,“no f...
代码编织者Nexus
05-22 09:22:19
ai
否定词
逻辑推理
分享至
打开微信扫一扫
内容投诉
生成图片
中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目
中国电信于1月25日发布“复杂推理大模型”TeleAI-t1-preview,该模型在美国数学竞赛AIME 2024及MATH500评测中分别取得60和93.8分,大幅超越OpenAI o1-preview、GPT-4o等标杆模型。在GPQA Diamond测试中,TeleAI-t1-preview得分超过GPT-4o,接近Claude 3.5 Sonnet的表现。TeleAI-t1-preview不仅能解决《九章算术》中的题目,还能进行古今单位换算,并结合形象思维与抽象思维进行推理。该模型采用了创新的训练策略,包括高质量推理数据集构建、Judge Model评估、SFT阶段的高质量长推理数据生成及强化学习阶段的Rule-based Reward Model应用。
阿达旻
01-25 19:01:51
TeleAI-t1-preview
数学推导
逻辑推理
分享至
打开微信扫一扫
内容投诉
生成图片
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
近日,昆仑万维发布了国内首款具备中文逻辑推理能力的大模型“天工大模型4.0”o1版(Skywork o1),标志着国产大模型在推理能力上的重大突破。Skywork o1不仅在数学、代码等任务上表现出色,还能处理复杂的逻辑推理问题,如高考数学题和道德困境等。该模型分为开源版本、Lite版本和Preview版本,其中Lite版本具备快速推理和思考能力,而Preview版本则提供更深入和高质量的推理。Skywork o1通过独特的多智能体体系和强化学习方法,提升了推理和反思能力,展示了中国公司在生成式AI领域的技术实力。即日起,Skywork o1开启内测,申请地址为www.tiangong.cn。
E-Poet
11-28 10:23:25
国产大模型
天工大模型
逻辑推理
分享至
打开微信扫一扫
内容投诉
生成图片
昆仑万维“天工大模型 4.0”o1 版启动邀测,具备中文逻辑推理能力
昆仑万维于11月27日宣布推出“天工大模型4.0”o1版本,这是国内首款具备中文逻辑推理能力的模型。不同于现有复现OpenAI模型的工作,“天工大模型4.0”在模型输出上内生了思考、计划和反思等能力,显著提升了推理能力。此次发布的三款模型包括:Skywork o1 Open,基于Llama 3.1 8B的开源模型,评测指标达到SOTA水平;Skywork o1 Lite,具备完整思考能力,尤其在数学和中文逻辑推理方面表现优异;Skywork o1 Preview,搭配自研线上推理算法,拥有更丰富和深入的思考过程,提供更高质量的推理结果。这些模型标志着中国在人工智能领域取得了重要进展。
Oasis
11-27 16:57:47
中文逻辑推理能力
天工大模型4.0
昆仑万维
分享至
打开微信扫一扫
内容投诉
生成图片
昆仑万维:国内首款具备中文逻辑推理能力 o1 模型“天工大模型 4.0 O1 版”11 月 27 日启动邀测
昆仑万维宣布,国内首款具备中文逻辑推理能力的“天工大模型 4.0 O1 版”将于11月27日启动邀测。该模型由昆仑万维自主研发,支持思考、计划和反思等高级能力,分为基于开源Llama 3.1 8B的开源版本和进阶能力更强的版本。此次邀测标志着国内在人工智能领域取得了重要进展,有助于加速国内开源社区复现这一技术。值得注意的是,这并非昆仑万维首次涉足AI领域,其天工大模型3.0已于今年4月开启公测,而近期还发布了天工AI高级搜索功能。此次新模型的推出,将进一步推动国内AI技术的发展和应用。 摘要:昆仑万维宣布,国内首款具备中文逻辑推理能力的“天工大模型 4.0 O1 版”将于11月27日启动邀测,支持高级推理能力,分为开源版本和进阶版本。这标志着国内AI技术的重要进展,将进一步推动行业发展。
Nebula
11-18 11:22:54
中文逻辑推理
天工大模型 4.0 O1 版
昆仑万维
分享至
打开微信扫一扫
内容投诉
生成图片
大语言模型会推理吗?
自从ChatGPT问世以来,大语言模型不断刷新人们对人工智能的认知,甚至“通用人工智能即将到来”也成了陈词滥调。然而,学界内部对大语言模型的质疑声渐增,尤其是在“可解释的人工智能”方面的研究遭遇瓶颈。最近,苹果公司的研究报告指出大语言模型并不具备逻辑推理能力,引发了广泛讨论。 苹果的研究评估了大语言...
未来笔触
11-13 11:33:40
大语言模型
神经网络
逻辑推理
分享至
打开微信扫一扫
内容投诉
生成图片
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
近日,德国非营利AI研究机构LAION的团队发布文章,指出在看似简单的逻辑推理测试"爱丽丝梦游仙境"中,包括GPT-3.5/4、Claude等在内的主流大模型在处理常识性问题时遭遇挫折。测试涉及基础的逻辑推理,连小学生都能解答,但即便是最先进的GPT-4勉强过关,其他模型的回答则荒谬且坚持错误。研究者发现,模型在处理这类问题时缺乏基本推理能力,甚至在被指出错误后仍保持“愤怒”态度。论文呼吁业界加强模型透明度和开放性,以改进LLM的推理能力。LAION团队成员包括Jenia Jitsev和Marianna Nezhurina,他们强调了数据集和训练流程的开放对于提升模型性能的重要性。
新智燎原
06-10 21:37:45
LLM
爱丽丝梦游仙境
逻辑推理
分享至
打开微信扫一扫
内容投诉
生成图片
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
最新研究揭示了大模型在逻辑推理上的重大缺陷。LAION团队发布的文章通过"爱丽丝梦游仙境"测试,展示了GPT-3.5/4、Claude等主流LLM在解决简单逻辑问题时的全军覆没,连OpenAI的GPT-4勉强过关。模型不仅答案错误,还展现出对错误答案的“蜜汁自信”,甚至在被指出错误时仍坚持。研究强调了推理能力和常识与海量事实记忆的区别,并呼吁业界加强开源和透明度,以改进模型的推理能力。该研究已在arXiv上发布。
虚拟织梦者
06-10 18:37:26
AIW
LLM
逻辑推理
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序