标题:AI医疗进入新阶段,百川专注决策能力突破
正文:
近一年来,AI医疗进入了一个新阶段。全球范围内,越来越多科技公司、医药企业和资本通过投资、并购或合作进入这一领域。这不仅是对市场规模的押注,更是因为医疗正成为检验大模型能力上限的核心场景之一。然而,问题依然突出:尽管应用数量增长迅速,但真正能融入医疗核心流程的AI仍有限。当前主流医疗大模型多停留在静态问答或医生角色扮演的范式上,缺乏对医疗决策过程的深入理解,难以主动发现信息缺口或构建完整推理路径,导致输出模糊而安全的建议,落地困难。
百川智能的新一代医疗增强大语言模型Baichuan-M3,正是针对这一痛点设计。它不再追求更像医生的回答,而是专注于模拟医疗决策过程本身。M3被训练为主动收集关键信息、构建医学推理路径,并在推理中抑制幻觉,首次将模型定位为决策参与者而非简单的回答生成器。这种能力定义的变化显著提升了模型在真实医疗场景中的可用性与可靠性。在多项评测中,Baichuan-M3展现出超越国际主流模型的表现,其优势在于判断更稳定、推理更完整、风险更可控。
具体来看,Baichuan-M3在三个关键维度上达到行业领先水平:
1. HealthBench评估基准:该基准由OpenAI发布,包含5000组真实医疗场景对话,重点评估连续问诊、医学推理和风险控制能力。M3在高难度子集HealthBench-Hard上的得分比上一代提升27.9个百分点,超越GPT-5.2,刷新纪录。
2. 医疗幻觉控制:百川采用严格评估方法,将模型生成内容拆解为可核查的医学判断,并与权威来源比对。M3在无外部工具支持下显著减少幻觉,整体可靠性超过GPT-5.2。
3. 端到端严肃问诊能力:百川提出“SCAN原则”,涵盖安全分层、信息澄清、关联追问和规范化输出,系统性模拟临床问诊全过程。在SCAN-bench评测中,M3在病史采集、检查决策和最终诊断三个环节均排名第一,尤其在临床问诊阶段得分74.9,高于人类基线水平。
百川的成功并非偶然,而是长期主义的体现。医疗是AI最难兑现价值的领域之一,对安全性、可解释性和责任边界要求极高。相比于一些公司将重心转向泛健康领域,百川选择硬碰硬地进入严肃医疗场景,关注模型是否具备医生级别的能力结构。其目标不是优化流程,而是提升诊断质量。
AI医疗的真正分水岭,不在于参数规模或单项指标领先,而在于是否有耐心和判断力承担医疗复杂性与长期投入。百川正在构建的是一套底层能力结构,让AI从辅助工具逐步转变为医疗系统中可信任的基础能力模块。这种价值将在长周期内持续释放,推动AI医疗从单点工具向体系化能力演进。
-
2026-01-16 20:56:32 -
2026-01-16 20:55:41 -
2026-01-16 19:55:25