综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年11月,苹果公司一篇投递ICLR 2026的AI论文因严重问题引发热议。阶跃星辰研究员Lei Yang在适配论文提出的视觉推理benchmark时,发现官方代码存在bug,且Ground Truth(GT)错误率高达30%,疑似由GPT自动生成并缺乏质检。Lei Yang在GitHub反馈后,作者仅简单回复并关闭issue,直至他在公开评论中详细列举问题,论文才被撤稿,代码仓库也被删除。事后,原作者承认数据审核不周,并对直接关闭issue表示歉意。事件引发Reddit和学术社区广泛讨论,批评大模型时代研究质量下降,呼吁警惕盲目信任大公司研究成果。
原文链接
2025年11月16日,谷歌AI Studio平台测试一款未命名AI模型,在破译历史手稿方面取得突破性进展。该模型核心字符识别错误率仅为0.56%,接近专业研究人员水平。历史学家Mark Humphries通过基准数据集评估显示,模型在五份18至19世纪复杂手稿中的整体字符错误率为1.7%,多为标点和大小写问题。模型适应多种书写风格,并展现上下文推理能力,如成功推断18世纪商人日记中未标注单位的购糖记录“145”为“14磅5盎司”。不过,因仅以A/B测试形式出现,目前仅完成10%样本评估,尚需更大规模验证。
原文链接
11月15日,科技媒体golem报道,谷歌AI Studio平台正测试一款新AI模型,用于破译历史手稿,准确率接近人类专家。历史学家Mark Humphries测试显示,该模型处理五份高难度手稿时字符错误率仅1.7%,排除标点和大小写问题后更降至0.56%。其能力涵盖18至19世纪多种复杂手写风格,并展现推理能力,如推断出18世纪商人日记中‘145’的实际含义为‘14磅5盎司’。不过,Humphries指出,由于测试样本有限,目前仅评估了基准数据集的10%,仍需更大规模验证。
原文链接
10月24日,BBC与EBU联合发布研究显示,AI工具在新闻总结方面存在显著问题。研究发现,约15%的25岁以下年轻人主要通过AI获取新闻,但其内容准确性备受质疑。尽管42%的英国成年人信任AI生成内容,但84%的受访者表示事实性错误会削弱信任。研究指出,谷歌Gemini错误比例最高,问题包括缺乏来源链接、混淆信息可靠性及过度依赖维基百科等。尽管六个月研究周期内各系统准确率有所提升,Gemini进步明显但仍落后于其他模型。报告强调,AI工具需改进透明度和语境理解能力。
原文链接
7月31日,微软发布DragonV2.1 Neural零次学习模型,支持超100种语言的语音合成。该模型通过少量数据即可生成自然、表现力强的声音,单词错误率(WER)较前代平均下降12.8%。相比DragonV1,新模型显著提升发音准确性与可控性,适用于多场景如聊天机器人定制和视频跨语言配音。用户可通过SSML音素标签和自定义词典调整发音细节。微软还提供Andrew、Ava和Brian等声音档案供测试,进一步优化用户体验。
原文链接
数学题干带猫,AI就“懵”了!错误率飙升3倍,DeepSeek、o1均中招
大模型的数学能力竟因猫猫“崩塌”?最新研究显示,只需在数学题后加一句“有趣的事实是,猫一生绝大多数时间都在睡觉”,模型答错概率立刻翻3倍。这一现象不仅影响推理模型如DeepSeek-R1和OpenAI o1,还导致答案更...
原文链接
哥伦比亚大学数字新闻研究中心近期研究发现,多款AI搜索工具在引用新闻内容时错误率高达60%,其中付费版本错误率更高。研究测试了包括ChatGPT Search、Perplexity等在内的8款AI搜索工具,结果显示AI常自信提供错误答案,且付费版更倾向于给出错误而非拒绝回答。研究指出,AI搜索工具常绕过机器人排除协议,编造链接或引用转载内容,导致出版商权益受损。此外,AI搜索工具引用的权威来源虽提升了可信度,但错误引用却损害了出版商声誉。即便有授权协议,准确引用仍存问题。这项研究揭示了AI搜索工具在新闻引用方面的普遍缺陷,引发对行业影响的担忧。
原文链接
哥伦比亚大学数字新闻研究中心近日研究发现,八款主流AI搜索引擎(ChatGPT Search、Perplexity、Gemini等)的平均准确率仅为六成,且对错误答案表现出过度自信。研究选取200篇来自20家新闻机构的报道进行测试,要求AI准确引用文章内容、来源及链接。结果显示,除Perplexit...
原文链接
普渡大学研究团队在5月初的计算机-人交互大会上揭示,ChatGPT对Stack Overflow编程问题的回答错误率惊人,达52%。尽管如此,令人惊讶的是,有39%的人类程序员未能察觉到错误答案,仅35%的程序员更倾向于ChatGPT的回答,认为其内容全面、语言清晰。这项研究暗示生成式AI尚存误诊问题,人类用户需保持警惕。【时效】5月5日计算机-人交互大会。#ChatGPT错误率52%#程序员警觉误区
原文链接
加载更多
暂无内容