综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
11月17日,埃隆·马斯克旗下xAI公司发布最新大语言模型Grok 4.1,已在grok.com及移动应用上线。新模型在LMArena排行榜以1483分登顶,性能从第33位跃升至第1位,其即时响应版本也位列第二。Grok 4.1在情感理解、创意写作和逻辑推理等方面表现优异,EQ-Bench3和Creative Writing v3测试中均名列前茅。此外,通过优化训练,大幅降低了幻觉率,提升了信息查询的准确性,为用户提供更可靠的服务。
原文链接
北京时间8月8日凌晨,GPT-5正式发布。新版本统一了此前多个模型的命名,通过内部智能“路由器”机制优化用户请求处理,降低了使用决策难度。GPT-5在编程能力、幻觉率降低及API成本等方面表现突出,编程任务完成度高且幻觉率较前代显著下降,API使用成本大幅降低。然而,发布会上出现了图表错误等低级失误,引发质疑。尽管部分用户认为进步未达预期,但文章指出生成式AI发展时间尚短,应给予更多观察时间。此外,GPT-5还新增了一些趣味功能,如自嘲吐槽和会员专属重点色设置,但后者引发争议。
原文链接
DeepSeek系列模型在多个方面表现出色,但也存在“幻觉”问题。在Vectara HHEM人工智能幻觉测试中,DeepSeek-R1的幻觉率为14.3%,远超行业平均水平及前身V3的3.9%。
博主Levy Rozman组织的国际象棋对弈中,DeepSeek-R1多次出现异常行为,如主动送棋子给对...
原文链接
加载更多
暂无内容