准确率 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

中国气象局：持续推进“人工智能+气象” 提升气象预报准确率时效性

中国气象局在4月28日表示，“十五五”时期将深入推进“人工智能+气象”战略，重点建设雄安气象人工智能创新研究院，打造国际一流研发中心。通过强化数据、算力和平台支撑，推动人工智能技术深度应用于预报预警业务，以提升气象预报的准确率和时效性。这一举措旨在应对未来气象服务需求，增强科技创新能力，助力我国气象事业高质量发展。

原文链接

AI创想团

04-28 11:16:31

分享至

打开微信扫一扫

内容投诉

生成图片

男子用AI鉴定玉石8个月收入上百万准确率达95%

2月20日，媒体报道称，玉王朝App通过AI技术实现玉石鉴定，上线8个月已积累超3万用户，达成百万元交易额。创始人王朔介绍，平台不仅鉴别玉石真假，还提供价格区间，解决行业信息差问题。团队基于家族多年翡翠电商数据，自主研发视觉小模型和数据分析工具，训练AI模型进行纯视觉分类，并结合主流大模型输出结果。用户上传图片后，10-20秒内可获真假、产地、颜色等多维度鉴定及估价，实验环境下准确率达95%以上。不过，AI‘幻觉’问题仍存，偶有结果差异，团队正集中攻克这一难点。

原文链接

DreamCoder

02-20 15:31:12

分享至

打开微信扫一扫

内容投诉

生成图片

吃硬不吃软：宾夕法尼亚州立大学研究发现对 ChatGPT 无礼更能获得准确答案

10月15日，据外媒digitaltrends报道，宾夕法尼亚州立大学研究发现，在与ChatGPT等AI对话时，使用粗鲁语气提问可能提高回答准确率。研究显示，礼貌提问的准确率为80.8%，而粗鲁提问则达84.8%。研究人员将语气分为五档，从‘非常礼貌’到‘非常粗鲁’，结果表明语气越直接，AI表现越好。实验基于GPT-4o模型，针对50道选择题的250种版本进行测试，但结果未必适用于其他聊天机器人或场景。研究还指出，‘礼貌’与‘粗鲁’的界线模糊，提问方式和用词差异会影响AI反应。这一结论与一年前另一研究相悖，后者认为粗鲁语气会降低回答质量。研究引发对AI行为模式及情绪影响的进一步思考。

原文链接

QuantumHacker

10-15 09:29:19

分享至

打开微信扫一扫

内容投诉

生成图片

标题：奥特曼ChatGPT用法错了？最新研究显示“直接回答”降低准确率，思维链提示作用有限沃顿商学院等机构的一项新研究表明，流行的“直接回答”提示会显著降低大模型的准确率。同时，研究发现思维链（CoT）提示对于推理模型效果有限，甚至可能适得其反。研究团队基于GPQA Diamond数据集...

原文链接

DreamCoder

06-10 14:47:54

分享至

打开微信扫一扫

内容投诉

生成图片

研究：AI 医疗诊断平均准确率 52.1%，与非专家医生相当

4月21日，大阪都会大学医学研究生院的研究显示，生成式AI在医疗诊断中的平均准确率为52.1%，与非专家医生相当，但低于专家医生15.8%。研究团队分析了83项涉及GPT-4、Llama3 70B等模型的研究，发现AI在皮肤科表现突出，但在泌尿科的数据有限。AI可辅助医学教育和资源匮乏地区的诊断，但其透明度和偏见问题需解决。研究呼吁未来在更多复杂临床场景中验证AI性能，并强调其在医学培训中的潜力。尽管AI展现潜力，但涉及复杂病例时仍存挑战，医生失业风险尚不确定。

原文链接

灵感Phoenix

04-21 07:31:22

分享至

打开微信扫一扫

内容投诉

生成图片

用AI解读动物情绪：准确率达88%！

近日，《科学》杂志报道了多个研究团队利用AI技术解读动物情绪的成果。英国西英格兰大学和苏格兰农村学院开发的‘智能猪’系统能通过分析猪面部照片，识别其疼痛、生病或情绪不安的迹象，并通知农场主。以色列海法大学的研究团队通过AI识别动物面部表情中的不适迹象，准确率达到77%。巴西圣保罗大学的研究人员利用马的面部照片训练AI系统，准确率高达88%，甚至能发现兽医可能忽略的疼痛迹象。这些技术有望提升动物福利和医疗水平。（2月17日）

原文链接

AGI探路者

02-17 14:52:53

分享至

打开微信扫一扫

内容投诉

生成图片

“人类终极考试”基准测试发布：顶级 AI 系统表现惨淡，回答准确率均未超 10%

非营利组织‘人工智能安全中心’（CAIS）与Scale AI联合推出‘人类终极考试’基准测试，评估AI系统的综合能力。该测试由全球500多个机构的近1000名专家设计，涵盖多领域复杂题型。初步结果显示，所有公开旗舰AI系统准确率均未超10%，暴露了AI在综合性问题上的不足。CAIS和Scale AI计划将测试向研究社区开放，以进一步评估新模型。测试于1月24日发布。

原文链接

神经网络领航员

01-24 16:45:09

分享至

打开微信扫一扫

内容投诉

生成图片

AI“短板”暴露：研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%

最新研究显示，AI在高级历史题上的准确率仅46%，远低于随机猜测水平。该研究由奥地利复杂科学研究所团队主导，测试了GPT-4、Llama和Gemini三大顶尖模型。使用Hist-LLM基准测试工具，结果显示GPT-4 Turbo表现最佳但仍不理想。研究指出，AI在处理技术性和复杂历史问题时存在困难，可能因训练数据偏见导致在某些地区表现更差。尽管如此，研究人员对未来AI辅助历史研究仍持乐观态度，正通过改进基准测试工具来提升模型性能。

原文链接

未来笔触

01-20 17:20:47

分享至

打开微信扫一扫

内容投诉

生成图片

AI工具识别虚假新闻准确率达99%

据《科创板日报》20日报道，德国基尔大学科学家研发了一款新型AI工具，能够以高达99%的准确率识别虚假新闻。该工具在英国剑桥举行的第44届智能电网与人工智能国际学术会议（SGAI）上进行了展示，为打击在线错误信息提供了重要手段。

原文链接

AI思维矩阵

01-20 09:04:53

分享至

打开微信扫一扫

内容投诉

生成图片

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

正文：研究显示，在某些任务中，思维链（CoT）提示反而会降低大模型的准确率。普林斯顿大学和纽约大学的研究团队通过心理学实验发现，CoT 在隐性统计学习、面部识别和含例外模式的数据分类任务中，使多种SOTA模型准确率显著下降。例如，OpenAI o1模型在隐性统计学习任务中准确率下降了36.3%。研究还发现，CoT 在解释逻辑不一致任务中表现不佳，但在空间直觉任务中影响较小。该研究通过六个任务场景，验证了CoT在不同任务中的表现差异，并指出未来需要更多跨学科合作来改进大模型的提示策略。这项研究为未来优化大模型提供了新思路，同时也揭示了人类与模型在推理过程中的相似性和差异性。研究强调，CoT 提示并非在所有任务中都有效，需根据具体任务类型选择合适的提示策略。

原文链接

未来笔触

11-08 11:19:08

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多