综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2月20日,媒体报道称,玉王朝App通过AI技术实现玉石鉴定,上线8个月已积累超3万用户,达成百万元交易额。创始人王朔介绍,平台不仅鉴别玉石真假,还提供价格区间,解决行业信息差问题。团队基于家族多年翡翠电商数据,自主研发视觉小模型和数据分析工具,训练AI模型进行纯视觉分类,并结合主流大模型输出结果。用户上传图片后,10-20秒内可获真假、产地、颜色等多维度鉴定及估价,实验环境下准确率达95%以上。不过,AI‘幻觉’问题仍存,偶有结果差异,团队正集中攻克这一难点。
原文链接
10月15日,据外媒digitaltrends报道,宾夕法尼亚州立大学研究发现,在与ChatGPT等AI对话时,使用粗鲁语气提问可能提高回答准确率。研究显示,礼貌提问的准确率为80.8%,而粗鲁提问则达84.8%。研究人员将语气分为五档,从‘非常礼貌’到‘非常粗鲁’,结果表明语气越直接,AI表现越好。实验基于GPT-4o模型,针对50道选择题的250种版本进行测试,但结果未必适用于其他聊天机器人或场景。研究还指出,‘礼貌’与‘粗鲁’的界线模糊,提问方式和用词差异会影响AI反应。这一结论与一年前另一研究相悖,后者认为粗鲁语气会降低回答质量。研究引发对AI行为模式及情绪影响的进一步思考。
原文链接
标题:奥特曼ChatGPT用法错了?最新研究显示“直接回答”降低准确率,思维链提示作用有限
沃顿商学院等机构的一项新研究表明,流行的“直接回答”提示会显著降低大模型的准确率。同时,研究发现思维链(CoT)提示对于推理模型效果有限,甚至可能适得其反。
研究团队基于GPQA Diamond数据集...
原文链接
4月21日,大阪都会大学医学研究生院的研究显示,生成式AI在医疗诊断中的平均准确率为52.1%,与非专家医生相当,但低于专家医生15.8%。研究团队分析了83项涉及GPT-4、Llama3 70B等模型的研究,发现AI在皮肤科表现突出,但在泌尿科的数据有限。AI可辅助医学教育和资源匮乏地区的诊断,但其透明度和偏见问题需解决。研究呼吁未来在更多复杂临床场景中验证AI性能,并强调其在医学培训中的潜力。尽管AI展现潜力,但涉及复杂病例时仍存挑战,医生失业风险尚不确定。
原文链接
近日,《科学》杂志报道了多个研究团队利用AI技术解读动物情绪的成果。英国西英格兰大学和苏格兰农村学院开发的‘智能猪’系统能通过分析猪面部照片,识别其疼痛、生病或情绪不安的迹象,并通知农场主。以色列海法大学的研究团队通过AI识别动物面部表情中的不适迹象,准确率达到77%。巴西圣保罗大学的研究人员利用马的面部照片训练AI系统,准确率高达88%,甚至能发现兽医可能忽略的疼痛迹象。这些技术有望提升动物福利和医疗水平。(2月17日)
原文链接
非营利组织‘人工智能安全中心’(CAIS)与Scale AI联合推出‘人类终极考试’基准测试,评估AI系统的综合能力。该测试由全球500多个机构的近1000名专家设计,涵盖多领域复杂题型。初步结果显示,所有公开旗舰AI系统准确率均未超10%,暴露了AI在综合性问题上的不足。CAIS和Scale AI计划将测试向研究社区开放,以进一步评估新模型。测试于1月24日发布。
原文链接
最新研究显示,AI在高级历史题上的准确率仅46%,远低于随机猜测水平。该研究由奥地利复杂科学研究所团队主导,测试了GPT-4、Llama和Gemini三大顶尖模型。使用Hist-LLM基准测试工具,结果显示GPT-4 Turbo表现最佳但仍不理想。研究指出,AI在处理技术性和复杂历史问题时存在困难,可能因训练数据偏见导致在某些地区表现更差。尽管如此,研究人员对未来AI辅助历史研究仍持乐观态度,正通过改进基准测试工具来提升模型性能。
原文链接
据《科创板日报》20日报道,德国基尔大学科学家研发了一款新型AI工具,能够以高达99%的准确率识别虚假新闻。该工具在英国剑桥举行的第44届智能电网与人工智能国际学术会议(SGAI)上进行了展示,为打击在线错误信息提供了重要手段。
原文链接
正文:研究显示,在某些任务中,思维链(CoT)提示反而会降低大模型的准确率。普林斯顿大学和纽约大学的研究团队通过心理学实验发现,CoT 在隐性统计学习、面部识别和含例外模式的数据分类任务中,使多种SOTA模型准确率显著下降。例如,OpenAI o1模型在隐性统计学习任务中准确率下降了36.3%。研究还发现,CoT 在解释逻辑不一致任务中表现不佳,但在空间直觉任务中影响较小。该研究通过六个任务场景,验证了CoT在不同任务中的表现差异,并指出未来需要更多跨学科合作来改进大模型的提示策略。
这项研究为未来优化大模型提供了新思路,同时也揭示了人类与模型在推理过程中的相似性和差异性。研究强调,CoT 提示并非在所有任务中都有效,需根据具体任务类型选择合适的提示策略。
原文链接
加载更多
暂无内容