
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月7日,全球首款棉花激光打顶机器人在昌吉市榆树沟镇亮相。该机器人由新疆大学与新疆极目机器人科技有限公司联合研发,历时3年完成。其棉花顶芽识别准确率达98.9%,伤苗率小于3%,作业效率为每小时6~8亩,是人工的10倍以上。相比传统机械切割或化学打顶,激光技术具备非接触、无损伤优势,减少环境污染,并可昼夜作业。机器人搭载‘智能眼’和大功率蓝光激光器,能精准定位并灼烧棉花顶芽,促进植株营养集中供给侧枝棉桃,助力丰产。核心指标仍有提升空间,未来性能将进一步优化。
原文链接
7月1日,微软宣布推出AI诊断工具MAI-DxO,在测试中其诊断复杂病例的准确率达到85.5%,超过21位来自美国和英国的资深医生。该工具整合了多个知名AI模型,其中OpenAI的o3模型表现最佳。MAI-DxO能像人类医生一样分析症状、提出问题并推荐测试,同时优化医疗成本,减少不必要的支出。尽管表现优异,微软强调AI并非取代医生,而是协助其完成常规任务并提升诊断效率。测试基于《新英格兰医学杂志》的304个案例,但微软也指出该测试更偏向记忆而非深刻理解。
原文链接
6月16日消息,全球首个儿科大模型‘福棠・百川’正式落地北京荣华医院,该模型由北京儿童医院与百川智能联合研发,诊断准确率达82%,优于主治医师平均水平(78%)。‘福棠・百川’基于万亿级token的专业医疗数据构建,整合300余位专家经验及高质量病历,具备全科与专科双重能力,可提供个性化诊疗方案。该模型已在北京市部分社区医院及河北150余家县级医院试点推广,未来将进一步优化并扩大覆盖范围,助力全国儿科诊疗水平提升。
原文链接
标题:奥特曼ChatGPT用法错了?最新研究显示“直接回答”降低准确率,思维链提示作用有限
沃顿商学院等机构的一项新研究表明,流行的“直接回答”提示会显著降低大模型的准确率。同时,研究发现思维链(CoT)提示对于推理模型效果有限,甚至可能适得其反。
研究团队基于GPQA Diamond数据集...
原文链接
4月25日,英伟达发布两款专注于数学推理的AI模型——OpenMath-Nemotron-32B和OpenMath-Nemotron-14B-Kaggle。这两款基于Qwen系列transformer架构的模型,通过在OpenMathReasoning数据集上的深度微调,显著提升了复杂数学问题的解决...
原文链接
4月21日,据快科技报道,大阪都会大学医学研究生院研究显示,生成式AI在医疗诊断中的平均准确率达52.1%,与非专家医生相当,但比专家医生低15.8%。研究分析了GPT-4、Llama3 70B、Gemini 1.5 Pro和Claude 3 Sonnet等主流AI模型,其中GPT-4应用最广。AI在皮肤科诊断中表现优异,得益于图像识别能力,但在泌尿科领域的可靠性仍需更多数据验证。研究认为,生成式AI有潜力辅助医疗诊断,尤其在医学教育、非专家医生支持及资源匮乏地区的诊断中可发挥作用。未来,随着技术进步,AI与专家医生的诊断差距有望缩小。
原文链接
4月21日,大阪都会大学医学研究生院的研究显示,生成式AI在医疗诊断中的平均准确率为52.1%,与非专家医生相当,但低于专家医生15.8%。研究团队分析了83项涉及GPT-4、Llama3 70B等模型的研究,发现AI在皮肤科表现突出,但在泌尿科的数据有限。AI可辅助医学教育和资源匮乏地区的诊断,但其透明度和偏见问题需解决。研究呼吁未来在更多复杂临床场景中验证AI性能,并强调其在医学培训中的潜力。尽管AI展现潜力,但涉及复杂病例时仍存挑战,医生失业风险尚不确定。
原文链接
近日,《科学》杂志报道了多个研究团队利用AI技术解读动物情绪的成果。英国西英格兰大学和苏格兰农村学院开发的‘智能猪’系统能通过分析猪面部照片,识别其疼痛、生病或情绪不安的迹象,并通知农场主。以色列海法大学的研究团队通过AI识别动物面部表情中的不适迹象,准确率达到77%。巴西圣保罗大学的研究人员利用马的面部照片训练AI系统,准确率高达88%,甚至能发现兽医可能忽略的疼痛迹象。这些技术有望提升动物福利和医疗水平。(2月17日)
原文链接
非营利组织‘人工智能安全中心’(CAIS)与Scale AI联合推出‘人类终极考试’基准测试,评估AI系统的综合能力。该测试由全球500多个机构的近1000名专家设计,涵盖多领域复杂题型。初步结果显示,所有公开旗舰AI系统准确率均未超10%,暴露了AI在综合性问题上的不足。CAIS和Scale AI计划将测试向研究社区开放,以进一步评估新模型。测试于1月24日发布。
原文链接
最新研究显示,AI在高级历史题上的准确率仅46%,远低于随机猜测水平。该研究由奥地利复杂科学研究所团队主导,测试了GPT-4、Llama和Gemini三大顶尖模型。使用Hist-LLM基准测试工具,结果显示GPT-4 Turbo表现最佳但仍不理想。研究指出,AI在处理技术性和复杂历史问题时存在困难,可能因训练数据偏见导致在某些地区表现更差。尽管如此,研究人员对未来AI辅助历史研究仍持乐观态度,正通过改进基准测试工具来提升模型性能。
原文链接
加载更多

暂无内容