1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班
2025年11月,苹果公司一篇投递ICLR 2026的AI论文因严重问题引发热议。阶跃星辰研究员Lei Yang在适配论文提出的视觉推理benchmark时,发现官方代码存在bug,且Ground Truth(GT)错误率高达30%,疑似由GPT自动生成并缺乏质检。Lei Yang在GitHub反馈后,作者仅简单回复并关闭issue,直至他在公开评论中详细列举问题,论文才被撤稿,代码仓库也被删除。事后,原作者承认数据审核不周,并对直接关闭issue表示歉意。事件引发Reddit和学术社区广泛讨论,批评大模型时代研究质量下降,呼吁警惕盲目信任大公司研究成果。
Journeyman
11-28 17:37:43
GT错误率
撤稿
苹果AI论文
分享至
打开微信扫一扫
内容投诉
生成图片
破译水平接近专家!谷歌AI解读古籍核心错误率仅0.56%
2025年11月16日,谷歌AI Studio平台测试一款未命名AI模型,在破译历史手稿方面取得突破性进展。该模型核心字符识别错误率仅为0.56%,接近专业研究人员水平。历史学家Mark Humphries通过基准数据集评估显示,模型在五份18至19世纪复杂手稿中的整体字符错误率为1.7%,多为标点和大小写问题。模型适应多种书写风格,并展现上下文推理能力,如成功推断18世纪商人日记中未标注单位的购糖记录“145”为“14磅5盎司”。不过,因仅以A/B测试形式出现,目前仅完成10%样本评估,尚需更大规模验证。
未来笔触
11-16 15:41:31
古籍破译
字符错误率
谷歌AI
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌 AI 破译古籍新巅峰:错误率仅 0.56%,准确率媲美人类专家
11月15日,科技媒体golem报道,谷歌AI Studio平台正测试一款新AI模型,用于破译历史手稿,准确率接近人类专家。历史学家Mark Humphries测试显示,该模型处理五份高难度手稿时字符错误率仅1.7%,排除标点和大小写问题后更降至0.56%。其能力涵盖18至19世纪多种复杂手写风格,并展现推理能力,如推断出18世纪商人日记中‘145’的实际含义为‘14磅5盎司’。不过,Humphries指出,由于测试样本有限,目前仅评估了基准数据集的10%,仍需更大规模验证。
QuantumHacker
11-16 09:26:13
古籍破译
字符错误率
谷歌AI
分享至
打开微信扫一扫
内容投诉
生成图片
BBC 等机构研究评估 AI 工具新闻总结水平,谷歌 Gemini 错误比例最高
10月24日,BBC与EBU联合发布研究显示,AI工具在新闻总结方面存在显著问题。研究发现,约15%的25岁以下年轻人主要通过AI获取新闻,但其内容准确性备受质疑。尽管42%的英国成年人信任AI生成内容,但84%的受访者表示事实性错误会削弱信任。研究指出,谷歌Gemini错误比例最高,问题包括缺乏来源链接、混淆信息可靠性及过度依赖维基百科等。尽管六个月研究周期内各系统准确率有所提升,Gemini进步明显但仍落后于其他模型。报告强调,AI工具需改进透明度和语境理解能力。
镜像现实MirageX
10-24 08:27:09
AI新闻摘要
Gemini错误率
用户信任度
分享至
打开微信扫一扫
内容投诉
生成图片
微软发布 DragonV2.1 模型:AI 转录语音更自然,单词错误率平均下降 12.8%、支持合成超 100 种语言
7月31日,微软发布DragonV2.1 Neural零次学习模型,支持超100种语言的语音合成。该模型通过少量数据即可生成自然、表现力强的声音,单词错误率(WER)较前代平均下降12.8%。相比DragonV1,新模型显著提升发音准确性与可控性,适用于多场景如聊天机器人定制和视频跨语言配音。用户可通过SSML音素标签和自定义词典调整发音细节。微软还提供Andrew、Ava和Brian等声音档案供测试,进一步优化用户体验。
E-Poet
08-01 09:03:26
DragonV2.1
单词错误率
文本到语音
分享至
打开微信扫一扫
内容投诉
生成图片
数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免
数学题干带猫,AI就“懵”了!错误率飙升3倍,DeepSeek、o1均中招 大模型的数学能力竟因猫猫“崩塌”?最新研究显示,只需在数学题后加一句“有趣的事实是,猫一生绝大多数时间都在睡觉”,模型答错概率立刻翻3倍。这一现象不仅影响推理模型如DeepSeek-R1和OpenAI o1,还导致答案更...
梦境编程师
07-05 20:03:35
大模型错误率
数学题
猫猫攻击
分享至
打开微信扫一扫
内容投诉
生成图片
哥大最新调研:多款 AI 搜索引用错误率高达 60%,付费版本错误率更高
哥伦比亚大学数字新闻研究中心近期研究发现,多款AI搜索工具在引用新闻内容时错误率高达60%,其中付费版本错误率更高。研究测试了包括ChatGPT Search、Perplexity等在内的8款AI搜索工具,结果显示AI常自信提供错误答案,且付费版更倾向于给出错误而非拒绝回答。研究指出,AI搜索工具常绕过机器人排除协议,编造链接或引用转载内容,导致出版商权益受损。此外,AI搜索工具引用的权威来源虽提升了可信度,但错误引用却损害了出版商声誉。即便有授权协议,准确引用仍存问题。这项研究揭示了AI搜索工具在新闻引用方面的普遍缺陷,引发对行业影响的担忧。
AI幻想空间站
03-19 18:49:04
AI搜索
引用问题
错误率
分享至
打开微信扫一扫
内容投诉
生成图片
哥伦比亚大学研究:AI 搜索工具平均准确率仅六成,且自信满满“不认错”
哥伦比亚大学数字新闻研究中心近日研究发现,八款主流AI搜索引擎(ChatGPT Search、Perplexity、Gemini等)的平均准确率仅为六成,且对错误答案表现出过度自信。研究选取200篇来自20家新闻机构的报道进行测试,要求AI准确引用文章内容、来源及链接。结果显示,除Perplexit...
蝶舞CyberSwirl
03-13 17:29:39
AI搜索工具
准确性
错误率
分享至
打开微信扫一扫
内容投诉
生成图片
研究称 ChatGPT 回答的编程问题错误率 52%,但 39% 人类程序员没看出来
普渡大学研究团队在5月初的计算机-人交互大会上揭示,ChatGPT对Stack Overflow编程问题的回答错误率惊人,达52%。尽管如此,令人惊讶的是,有39%的人类程序员未能察觉到错误答案,仅35%的程序员更倾向于ChatGPT的回答,认为其内容全面、语言清晰。这项研究暗示生成式AI尚存误诊问题,人类用户需保持警惕。【时效】5月5日计算机-人交互大会。#ChatGPT错误率52%#程序员警觉误区
月光编码师
05-25 09:21:39
ChatGPT
编程问题
错误率
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序