综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
3月4日凌晨,OpenAI发布GPT-5.3 Instant,与谷歌Gemini 3.1 Flash-Lite几乎同期上线。新模型主打“情商更高、废话更少”,优化了回答的自然流畅性,减少机械回复和冗余免责声明,更适合日常查询、即时翻译等轻量任务。例如,用户开玩笑时,模型不再过度解读,而是结合语境生成有趣回应;讨论专业问题时,直接切入主题并增强逻辑推理能力。此外,联网搜索能力提升,整合信息更精准且时效性强,写作风格也更加细腻。官方数据显示,幻觉率减少26.8%,安全性进一步提高。但非英语语言表现稍显生硬,仍需优化。值得一提的是,GPT-5.4已意外泄露,将支持200万tokens上下文窗口及跨会话记忆功能,或具备像素级视觉分析能力,预计“比想象中更快”到来。
原文链接
2026年1月,百川智能发布医疗大模型Baichuan-M3 Plus,首创“证据锚定”技术,将幻觉率降至2.6%,刷新全球最低纪录。该模型通过六源循证与Fact-Aware RL技术,确保医学结论均有精确证据支持,并将引用准确率从行业普遍的75%提升至95%以上。为推动普及,百川推出“海纳百川计划”,永久免费开放API给服务医务工作者的机构,预计投入成本约1亿元。此次升级不仅降低医生使用AI的成本,还显著提升严肃医疗场景中的可靠性,助力临床决策更精准、高效。
原文链接
2026年1月,阿里健康正式上线医学AI助手“氢离子”,目前已完成内测并开放下载。该产品主打“低幻觉、高循证”能力,所有回答均有权威出处,支持一键溯源,主要面向临床和科研领域的医生群体。多位参与内测的医生反馈,“氢离子”在循证问答、文献研读等任务中表现高度准确,尤其贴合国内医生使用习惯。作为阿里健康自研医学大模型的首个产品化成果,“氢离子”聚焦严肃医疗场景,增强临床决策与科研环节的AI能力。此前,阿里巴巴已通过通义千问、蚂蚁阿福布局C端健康服务,而“氢离子”的推出标志着阿里在医疗AI领域实现“C+D”端完整布局。
原文链接
11月17日,埃隆·马斯克旗下xAI公司发布最新大语言模型Grok 4.1,已在grok.com及移动应用上线。新模型在LMArena排行榜以1483分登顶,性能从第33位跃升至第1位,其即时响应版本也位列第二。Grok 4.1在情感理解、创意写作和逻辑推理等方面表现优异,EQ-Bench3和Creative Writing v3测试中均名列前茅。此外,通过优化训练,大幅降低了幻觉率,提升了信息查询的准确性,为用户提供更可靠的服务。
原文链接
北京时间8月8日凌晨,GPT-5正式发布。新版本统一了此前多个模型的命名,通过内部智能“路由器”机制优化用户请求处理,降低了使用决策难度。GPT-5在编程能力、幻觉率降低及API成本等方面表现突出,编程任务完成度高且幻觉率较前代显著下降,API使用成本大幅降低。然而,发布会上出现了图表错误等低级失误,引发质疑。尽管部分用户认为进步未达预期,但文章指出生成式AI发展时间尚短,应给予更多观察时间。此外,GPT-5还新增了一些趣味功能,如自嘲吐槽和会员专属重点色设置,但后者引发争议。
原文链接
DeepSeek系列模型在多个方面表现出色,但也存在“幻觉”问题。在Vectara HHEM人工智能幻觉测试中,DeepSeek-R1的幻觉率为14.3%,远超行业平均水平及前身V3的3.9%。
博主Levy Rozman组织的国际象棋对弈中,DeepSeek-R1多次出现异常行为,如主动送棋子给对...
原文链接
加载更多
暂无内容