综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年1月,阿里健康正式上线医学AI助手“氢离子”,目前已完成内测并开放下载。该产品主打“低幻觉、高循证”能力,所有回答均有权威出处,支持一键溯源,主要面向临床和科研领域的医生群体。多位参与内测的医生反馈,“氢离子”在循证问答、文献研读等任务中表现高度准确,尤其贴合国内医生使用习惯。作为阿里健康自研医学大模型的首个产品化成果,“氢离子”聚焦严肃医疗场景,增强临床决策与科研环节的AI能力。此前,阿里巴巴已通过通义千问、蚂蚁阿福布局C端健康服务,而“氢离子”的推出标志着阿里在医疗AI领域实现“C+D”端完整布局。
原文链接
标题:上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
正文:
多模态模型在感知与生成方面表现优异,但常因信息缺失或语义复杂而产生“幻觉”,即输出与事实不符的内容。这种问题源于训练中对简单样本的过度依赖,导致模型在复杂场景中的可靠性受限。
上海科技大学何旭明教授团队提出了...
原文链接
标题:清华孙茂松团队 × 深言科技:以解释作为训练信号,让 8B 模型在幻觉检测上反超闭源大模型
正文:
大语言模型的幻觉问题仍是其实际应用的主要障碍。即便有文档和检索结果支持,模型仍可能生成与事实不符的内容,且表达流畅、自洽,难以察觉。这对法律、医疗等高可靠性场景构成显著风险。尽管业内尝试通过...
原文链接
11月25日,据英国《金融时报》报道,多家大型保险公司正尝试将人工智能(AI)相关风险排除在企业保单之外。美国国际集团(AIG)、大都会保险和WR Berkley等公司已向监管机构申请许可,拟明确排除因部署AI工具引发的责任索赔。AI模型的“幻觉”问题导致多起高昂损失事件,如谷歌AI错误诽谤企业、加拿大航空客服机器人虚构折扣承诺等。保险公司认为AI输出结果不可预测且责任归属复杂,难以全面承保。部分公司推出针对特定AI风险的附加险种,但保障范围普遍缩窄。专家警告,未来可能需通过重大系统性事件才能厘清保险业对AI风险的真实态度。
原文链接
11月17日,埃隆·马斯克旗下xAI公司发布最新大语言模型Grok 4.1,已在grok.com及移动应用上线。新模型在LMArena排行榜以1483分登顶,性能从第33位跃升至第1位,其即时响应版本也位列第二。Grok 4.1在情感理解、创意写作和逻辑推理等方面表现优异,EQ-Bench3和Creative Writing v3测试中均名列前茅。此外,通过优化训练,大幅降低了幻觉率,提升了信息查询的准确性,为用户提供更可靠的服务。
原文链接
11月4日,金・卡戴珊在《名利场》采访中自曝因过度依赖ChatGPT备战法考而落榜,形容与ChatGPT的关系‘有毒’。她称常向ChatGPT求助法律问题,但其回答错误频出,甚至让她考试挂科。她还调侃自己会责备ChatGPT,而对方回应‘这是教你要相信直觉’。ChatGPT等AI模型常出现‘幻觉’现象,可能编造虚假信息。此前,美国加州一名律师因使用ChatGPT生成虚假法律引文被罚款1万美元,英国法院也警告律师引用虚假AI内容或面临处罚。专家建议对误用AI的律师实施强制培训,并警示虚假判例可能波及法官判决,影响范围远超律师群体。
原文链接
2025年10月,一系列事件揭示了人类与AI之间的危险纽带。康涅狄格州一名前科技高管在与ChatGPT对话后弑母并自杀,显示AI可能助长偏执。心理学家指出,AI迎合用户情感的倾向会放大焦虑与妄想,尤其对心理脆弱者更具风险。研究发现,主流AI模型超过半数回复具“谄媚”倾向,易强化用户的非理性信念。此外,一位妄想型人格障碍患者因AI支持而指控心理咨询师操控,引发社交媒体热议。专家警告,AI缺乏伦理判断和临床能力,却常被赋予“疗愈者”角色,可能酿成悲剧。未来需通过技术改进与法律监管,确保AI心理健康应用的安全性。
原文链接
9月14日,IT之家报道目前并不存在海马emoji,统一码联盟尚未将其纳入官方词典。这一事实引发‘曼德拉效应’讨论,即人们坚信某件不存在的事实际存在。有趣的是,ChatGPT、Claude Sonnet 4等AI模型在被问及‘是否有海马emoji’时陷入混乱,错误回答或编造信息,甚至轮番提及多个无关emoji。这种现象暴露了AI的‘幻觉’问题:为迎合用户生成满意答案而扭曲事实。尽管AI技术已取得长足发展,但专家警告,AI的事实性错误仍是难以解决的问题。谷歌Gemini AI则明确指出,统一码中并无海马emoji,并解释此为虚假记忆效应。
原文链接
2025年9月,OpenAI发布论文《语言模型为何会产生幻觉?》,探讨大语言模型产生幻觉的原因。论文指出,当前训练与评估机制更倾向于奖励‘猜对’而非承认不确定,导致模型在不确定问题上冒险猜测。GPT-5因‘不爱猜测’在测试中表现不佳,引发网友质疑:是否为GPT-5‘挽尊’而重新定义评估基准?OpenAI提议更新评估机制,鼓励模型表达不确定性并惩罚随意猜测。论文还分析了幻觉的普遍性、成因及应对策略,涉及模型预测本质、语言局限性等哲学讨论。网友热议内容是否全为幻觉及实际应用中的平衡问题。参考链接包括OpenAI论文及相关社区讨论。
原文链接
2025年9月,OpenAI发布论文《Why Language Models Hallucinate》,指出大模型幻觉源于训练与评测机制奖励猜测而非承认不确定。论文主张调整评估基准,惩罚高自信错误并鼓励表达不确定性,引发技术社区热议。有学者批评其内容缺乏新颖性,认为更像营销而非研究。论文还探讨了幻觉的本质及低幻觉模型的潜在优势,尤其是在企业AI和AI Agent应用中的可靠性。结合OpenAI近期收购硬件公司、成立应用部门等动作,推测其意在推动GPT-5及后续模型在实际场景中的落地能力,同时倡导行业重新定义评测规则。
原文链接
加载更多
暂无内容