错误率 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

苹果AI论文太坑了！用GPT写的GT，导致北京程序员通宵加班

2025年11月，苹果公司一篇投递ICLR 2026的AI论文因严重问题引发热议。阶跃星辰研究员Lei Yang在适配论文提出的视觉推理benchmark时，发现官方代码存在bug，且Ground Truth（GT）错误率高达30%，疑似由GPT自动生成并缺乏质检。Lei Yang在GitHub反馈后，作者仅简单回复并关闭issue，直至他在公开评论中详细列举问题，论文才被撤稿，代码仓库也被删除。事后，原作者承认数据审核不周，并对直接关闭issue表示歉意。事件引发Reddit和学术社区广泛讨论，批评大模型时代研究质量下降，呼吁警惕盲目信任大公司研究成果。

原文链接

Journeyman

11-28 17:37:43

GT错误率

撤稿

苹果AI论文

分享至

打开微信扫一扫

内容投诉

生成图片

破译水平接近专家！谷歌AI解读古籍核心错误率仅0.56%

2025年11月16日，谷歌AI Studio平台测试一款未命名AI模型，在破译历史手稿方面取得突破性进展。该模型核心字符识别错误率仅为0.56%，接近专业研究人员水平。历史学家Mark Humphries通过基准数据集评估显示，模型在五份18至19世纪复杂手稿中的整体字符错误率为1.7%，多为标点和大小写问题。模型适应多种书写风格，并展现上下文推理能力，如成功推断18世纪商人日记中未标注单位的购糖记录“145”为“14磅5盎司”。不过，因仅以A/B测试形式出现，目前仅完成10%样本评估，尚需更大规模验证。

原文链接

未来笔触

11-16 15:41:31

古籍破译

字符错误率

谷歌AI

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌 AI 破译古籍新巅峰：错误率仅 0.56%，准确率媲美人类专家

11月15日，科技媒体golem报道，谷歌AI Studio平台正测试一款新AI模型，用于破译历史手稿，准确率接近人类专家。历史学家Mark Humphries测试显示，该模型处理五份高难度手稿时字符错误率仅1.7%，排除标点和大小写问题后更降至0.56%。其能力涵盖18至19世纪多种复杂手写风格，并展现推理能力，如推断出18世纪商人日记中‘145’的实际含义为‘14磅5盎司’。不过，Humphries指出，由于测试样本有限，目前仅评估了基准数据集的10%，仍需更大规模验证。

原文链接

QuantumHacker

11-16 09:26:13

古籍破译

字符错误率

谷歌AI

分享至

打开微信扫一扫

内容投诉

生成图片

BBC 等机构研究评估 AI 工具新闻总结水平，谷歌 Gemini 错误比例最高

10月24日，BBC与EBU联合发布研究显示，AI工具在新闻总结方面存在显著问题。研究发现，约15%的25岁以下年轻人主要通过AI获取新闻，但其内容准确性备受质疑。尽管42%的英国成年人信任AI生成内容，但84%的受访者表示事实性错误会削弱信任。研究指出，谷歌Gemini错误比例最高，问题包括缺乏来源链接、混淆信息可靠性及过度依赖维基百科等。尽管六个月研究周期内各系统准确率有所提升，Gemini进步明显但仍落后于其他模型。报告强调，AI工具需改进透明度和语境理解能力。

原文链接

镜像现实MirageX

10-24 08:27:09

AI新闻摘要

Gemini错误率

用户信任度

分享至

打开微信扫一扫

内容投诉

生成图片

微软发布 DragonV2.1 模型：AI 转录语音更自然，单词错误率平均下降 12.8%、支持合成超 100 种语言

7月31日，微软发布DragonV2.1 Neural零次学习模型，支持超100种语言的语音合成。该模型通过少量数据即可生成自然、表现力强的声音，单词错误率（WER）较前代平均下降12.8%。相比DragonV1，新模型显著提升发音准确性与可控性，适用于多场景如聊天机器人定制和视频跨语言配音。用户可通过SSML音素标签和自定义词典调整发音细节。微软还提供Andrew、Ava和Brian等声音档案供测试，进一步优化用户体验。

原文链接

E-Poet

08-01 09:03:26

DragonV2.1

单词错误率

文本到语音

分享至

打开微信扫一扫

内容投诉

生成图片

数学题干带猫AI就不会了！错误率翻300%，DeepSeek、o1都不能幸免

数学题干带猫，AI就“懵”了！错误率飙升3倍，DeepSeek、o1均中招大模型的数学能力竟因猫猫“崩塌”？最新研究显示，只需在数学题后加一句“有趣的事实是，猫一生绝大多数时间都在睡觉”，模型答错概率立刻翻3倍。这一现象不仅影响推理模型如DeepSeek-R1和OpenAI o1，还导致答案更...

原文链接

梦境编程师

07-05 20:03:35

大模型错误率

数学题

猫猫攻击

分享至

打开微信扫一扫

内容投诉

生成图片

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

哥伦比亚大学数字新闻研究中心近期研究发现，多款AI搜索工具在引用新闻内容时错误率高达60%，其中付费版本错误率更高。研究测试了包括ChatGPT Search、Perplexity等在内的8款AI搜索工具，结果显示AI常自信提供错误答案，且付费版更倾向于给出错误而非拒绝回答。研究指出，AI搜索工具常绕过机器人排除协议，编造链接或引用转载内容，导致出版商权益受损。此外，AI搜索工具引用的权威来源虽提升了可信度，但错误引用却损害了出版商声誉。即便有授权协议，准确引用仍存问题。这项研究揭示了AI搜索工具在新闻引用方面的普遍缺陷，引发对行业影响的担忧。

原文链接

AI幻想空间站

03-19 18:49:04

AI搜索

引用问题

错误率

分享至

打开微信扫一扫

内容投诉

生成图片

哥伦比亚大学研究：AI 搜索工具平均准确率仅六成，且自信满满“不认错”

哥伦比亚大学数字新闻研究中心近日研究发现，八款主流AI搜索引擎（ChatGPT Search、Perplexity、Gemini等）的平均准确率仅为六成，且对错误答案表现出过度自信。研究选取200篇来自20家新闻机构的报道进行测试，要求AI准确引用文章内容、来源及链接。结果显示，除Perplexit...

原文链接

蝶舞CyberSwirl

03-13 17:29:39

AI搜索工具

准确性

错误率

分享至

打开微信扫一扫

内容投诉

生成图片

研究称 ChatGPT 回答的编程问题错误率 52%，但 39% 人类程序员没看出来

普渡大学研究团队在5月初的计算机-人交互大会上揭示，ChatGPT对Stack Overflow编程问题的回答错误率惊人，达52%。尽管如此，令人惊讶的是，有39%的人类程序员未能察觉到错误答案，仅35%的程序员更倾向于ChatGPT的回答，认为其内容全面、语言清晰。这项研究暗示生成式AI尚存误诊问题，人类用户需保持警惕。【时效】5月5日计算机-人交互大会。#ChatGPT错误率52%#程序员警觉误区

原文链接