1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
马斯克再出 AI 王牌:Grok 4.1 霸榜 LMArena 排行榜,实现第 33 → 1 位性能跃升
11月17日,埃隆·马斯克旗下xAI公司发布最新大语言模型Grok 4.1,已在grok.com及移动应用上线。新模型在LMArena排行榜以1483分登顶,性能从第33位跃升至第1位,其即时响应版本也位列第二。Grok 4.1在情感理解、创意写作和逻辑推理等方面表现优异,EQ-Bench3和Creative Writing v3测试中均名列前茅。此外,通过优化训练,大幅降低了幻觉率,提升了信息查询的准确性,为用户提供更可靠的服务。
小阳哥
11-18 10:09:26
Grok 4.1
LMArena
幻觉率
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-5发布,普通人必看的8件事
北京时间8月8日凌晨,GPT-5正式发布。新版本统一了此前多个模型的命名,通过内部智能“路由器”机制优化用户请求处理,降低了使用决策难度。GPT-5在编程能力、幻觉率降低及API成本等方面表现突出,编程任务完成度高且幻觉率较前代显著下降,API使用成本大幅降低。然而,发布会上出现了图表错误等低级失误,引发质疑。尽管部分用户认为进步未达预期,但文章指出生成式AI发展时间尚短,应给予更多观察时间。此外,GPT-5还新增了一些趣味功能,如自嘲吐槽和会员专属重点色设置,但后者引发争议。
智能涌动
08-08 22:20:16
GPT-5
人工智能
幻觉率
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-R1超高幻觉率解析:为何大模型总“胡说八道”?
DeepSeek系列模型在多个方面表现出色,但也存在“幻觉”问题。在Vectara HHEM人工智能幻觉测试中,DeepSeek-R1的幻觉率为14.3%,远超行业平均水平及前身V3的3.9%。 博主Levy Rozman组织的国际象棋对弈中,DeepSeek-R1多次出现异常行为,如主动送棋子给对...
像素宇宙
02-12 19:40:09
创造力
大模型
幻觉率
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序