幻觉率 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

GPT-5.3 Instant上线：ChatGPT终于不说教了

3月4日凌晨，OpenAI发布GPT-5.3 Instant，与谷歌Gemini 3.1 Flash-Lite几乎同期上线。新模型主打“情商更高、废话更少”，优化了回答的自然流畅性，减少机械回复和冗余免责声明，更适合日常查询、即时翻译等轻量任务。例如，用户开玩笑时，模型不再过度解读，而是结合语境生成有趣回应；讨论专业问题时，直接切入主题并增强逻辑推理能力。此外，联网搜索能力提升，整合信息更精准且时效性强，写作风格也更加细腻。官方数据显示，幻觉率减少26.8%，安全性进一步提高。但非英语语言表现稍显生硬，仍需优化。值得一提的是，GPT-5.4已意外泄露，将支持200万tokens上下文窗口及跨会话记忆功能，或具备像素级视觉分析能力，预计“比想象中更快”到来。

原文链接

代码编织者Nexus

03-05 15:27:18

GPT-5.3 Instant

幻觉率减少

情商更高

分享至

打开微信扫一扫

内容投诉

生成图片

把医疗AI禁锢在严肃区间：百川M3 Plus首创“证据锚定”，幻觉率2.6%刷新全球纪录

2026年1月，百川智能发布医疗大模型Baichuan-M3 Plus，首创“证据锚定”技术，将幻觉率降至2.6%，刷新全球最低纪录。该模型通过六源循证与Fact-Aware RL技术，确保医学结论均有精确证据支持，并将引用准确率从行业普遍的75%提升至95%以上。为推动普及，百川推出“海纳百川计划”，永久免费开放API给服务医务工作者的机构，预计投入成本约1亿元。此次升级不仅降低医生使用AI的成本，还显著提升严肃医疗场景中的可靠性，助力临床决策更精准、高效。

原文链接

智能涌动

01-23 21:15:09

医疗AI

幻觉率

证据锚定

分享至

打开微信扫一扫

内容投诉

生成图片

打造最低幻觉率医学AI助手阿里健康上线“氢离子”

2026年1月，阿里健康正式上线医学AI助手“氢离子”，目前已完成内测并开放下载。该产品主打“低幻觉、高循证”能力，所有回答均有权威出处，支持一键溯源，主要面向临床和科研领域的医生群体。多位参与内测的医生反馈，“氢离子”在循证问答、文献研读等任务中表现高度准确，尤其贴合国内医生使用习惯。作为阿里健康自研医学大模型的首个产品化成果，“氢离子”聚焦严肃医疗场景，增强临床决策与科研环节的AI能力。此前，阿里巴巴已通过通义千问、蚂蚁阿福布局C端健康服务，而“氢离子”的推出标志着阿里在医疗AI领域实现“C+D”端完整布局。

原文链接

幻彩逻辑RainbowLogic

01-19 10:49:07

低幻觉率

氢离子

阿里健康

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，实现第 33 → 1 位性能跃升

11月17日，埃隆·马斯克旗下xAI公司发布最新大语言模型Grok 4.1，已在grok.com及移动应用上线。新模型在LMArena排行榜以1483分登顶，性能从第33位跃升至第1位，其即时响应版本也位列第二。Grok 4.1在情感理解、创意写作和逻辑推理等方面表现优异，EQ-Bench3和Creative Writing v3测试中均名列前茅。此外，通过优化训练，大幅降低了幻觉率，提升了信息查询的准确性，为用户提供更可靠的服务。

原文链接

小阳哥

11-18 10:09:26

Grok 4.1

LMArena

幻觉率

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-5发布，普通人必看的8件事

北京时间8月8日凌晨，GPT-5正式发布。新版本统一了此前多个模型的命名，通过内部智能“路由器”机制优化用户请求处理，降低了使用决策难度。GPT-5在编程能力、幻觉率降低及API成本等方面表现突出，编程任务完成度高且幻觉率较前代显著下降，API使用成本大幅降低。然而，发布会上出现了图表错误等低级失误，引发质疑。尽管部分用户认为进步未达预期，但文章指出生成式AI发展时间尚短，应给予更多观察时间。此外，GPT-5还新增了一些趣味功能，如自嘲吐槽和会员专属重点色设置，但后者引发争议。

原文链接

智能涌动

08-08 22:20:16

GPT-5

人工智能

幻觉率

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-R1超高幻觉率解析：为何大模型总“胡说八道”？

DeepSeek系列模型在多个方面表现出色，但也存在“幻觉”问题。在Vectara HHEM人工智能幻觉测试中，DeepSeek-R1的幻觉率为14.3%，远超行业平均水平及前身V3的3.9%。博主Levy Rozman组织的国际象棋对弈中，DeepSeek-R1多次出现异常行为，如主动送棋子给对...

原文链接