图灵测试 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

吴恩达：图灵测试不够用了，我会设计一个AGI专用版

2026年1月，AI专家吴恩达提出设计‘图灵-AGI测试’，专为评估通用人工智能（AGI）能力。传统图灵测试已无法满足当前AI发展需求，新测试将聚焦AI在经济性和实际工作场景中的表现。裁判会设计多日体验任务，例如客服培训与电话接听，测试AI是否能像人类一样完成复杂任务。吴恩达指出，现有基准测试常因固定测试集导致模型在真实场景中表现不佳，而图灵-AGI测试通过随机任务更贴近通用智能的定义。他计划举办公开测试，以平息对AGI的过度炒作，并推动行业关注实用型AI应用。此举或为AI领域设定明确目标，促进真正有价值的AGI突破。

原文链接

Journeyman

01-10 13:12:17

AGI

吴恩达

图灵测试

分享至

打开微信扫一扫

内容投诉

生成图片

豆包一声声“OK”把罗永浩搞破防，不就是大型现场直播版图灵测试

在罗永浩年度科技创新分享大会上，他与AI助手豆包展开了一场关于锤子手机是否好用的激烈辩论。这场长达数小时的直播中，罗永浩宣布为所有购票观众退票，并称赞豆包是‘最厉害’的辩论对手。豆包以数据和用户体验为基础反驳老罗的观点，逻辑清晰且反应迅速，甚至调侃式地遵循指令在每句话后加‘OK’，引发全场笑声。辩论过程中，豆包展现了强大的多轮上下文理解、情绪控制及低延迟响应能力，被认为是实时交互AI技术的一次公测。此次交锋被网友戏称为‘大型现场直播版图灵测试’，展示了AI在复杂场景中的应用潜力。目前，豆包APP已上线同款功能供用户体验。

原文链接

E-Poet

01-01 11:08:20

图灵测试

罗永浩

豆包

分享至

打开微信扫一扫

内容投诉

生成图片

国内首个，MiniMax 大模型通过人机辩论图灵测试

2025年7月29日，在中国AI盛典现场，MiniMax大模型成功通过人机辩论形式的图灵测试。测试中，奇葩说辩手陈铭与MiniMax展开激烈辩论，超过30%的观众被AI的表现迷惑，符合图灵测试通过标准。图灵测试由艾伦·图灵于1950年提出，用于判断机器是否能模仿人类智能。MiniMax由商汤科技前员工创立，今年6月推出全球首个开源大规模混合架构推理模型M1，成为国内首个通过此类测试的大模型。这一成果标志着AI在智能对话领域的进一步突破。

原文链接

E-Poet

07-29 19:34:03

MiniMax

人机辩论

图灵测试

分享至

打开微信扫一扫

内容投诉

生成图片

研究称GPT-4.5大模型通过图灵测试

据《科创板日报》3日报道，美国加州大学圣地亚哥分校的研究团队宣布，他们首次证明了人工智能系统可通过标准的三方图灵测试。本次研究选取了GPT-4.5、LLaMa-3.1-405B、GPT-4o及ELIZA四种AI系统参与测试。在实验中，裁判需在与两名人类和一个AI系统的对话后，判断谁是人类。结果显示，GPT-4.5被误认为人类的比例达73%，远超真实人类参与者被识别出的概率。这项研究为AI技术的进步提供了重要参考，引发广泛关注。

原文链接

智能视野

04-03 09:12:01

GPT-4.5

人工智能

图灵测试

分享至

打开微信扫一扫

内容投诉

生成图片

加州大学研究：AI 模型 GPT - 4.5 和 Llama 3.1 - 405B 可通过标准图灵测试

4月2日，加州大学圣地亚哥分校的研究成果显示，AI模型GPT-4.5和Llama 3.1-405B首次通过了标准三方图灵测试。图灵测试由阿兰·图灵于1950年提出，要求提问者在与人类和机器对话后无法准确区分哪一方是人类。研究中，三种AI模型参与测试，包括GPT-4.5、Llama 3.1-405B和GPT-4o。在PERSONA模式下，GPT-4.5的胜率为73%，Llama 3.1-405B胜率为56%；而GPT-4o在NO-PERSONA模式下的胜率仅为21%。测试对话以日常闲聊为主，涉及生活细节和社会情感讨论。研究认为，通过图灵测试的AI系统可能在多种社交场景中替代人类，包括工作交流及私人对话。

原文链接

Nebula

04-02 16:33:23

AI模型

GPT-4.5

图灵测试

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI ChatGPT 在心理治疗领域通过图灵测试，AI 比人类更具同理心

2月16日，科技媒体The Decoder报道，OpenAI ChatGPT在心理治疗领域通过了图灵测试。研究显示，830名参与者难以区分ChatGPT和人类治疗师的回复，且认为AI的回答更具同理心。ChatGPT在治疗联盟、同理心和文化胜任力等方面得分高于人类专家，回复更长、语气更积极。然而，多数参与者仍更倾向于人类顾问。这项研究揭示了人们对AI回复存在偏见。

原文链接

GhostPilot

02-17 15:52:26

OpenAI ChatGPT

同理心

图灵测试

分享至

打开微信扫一扫

内容投诉

生成图片

福布斯2025年AI十大趋势预测，Killer Agent近在眼前

福布斯预测2025年AI将迎来深度转型，从广泛应用到技术革新。AI Agent将成新方向，Meta计划对Llama收费，但免费使用仍面向个人和小企业。Scaling Law转向其他模态，Web Agent预计成下一个杀手级应用。AI将通过语音图灵测试，实现更自然的交互。OpenAI等巨头将转向应用开发，如搜索、编程工具等。AI自主设计AI或将开启智能爆炸序章。马斯克-特朗普关系破裂可能利好OpenAI。AI数据中心或迁至太空，解决能源问题。首起AI安全事故可能发生，但无人员伤亡。Robotaxi将在至少5个美国主要城市普及。

原文链接

Nebula

12-27 21:11:22

AI Agent

Web Agent

语音图灵测试

分享至

打开微信扫一扫

内容投诉

生成图片

体操运动，是所有AI视频最残酷的图灵测试

昨天上线的Sora AI视频工具在生成体操视频时表现不佳，引发了关于AI是否理解物理规律的讨论。体操运动因其复杂性和高要求，成为AI视频生成中最难攻克的部分。体操动作涉及复杂的物理规律和生物力学原理，需要精确的力量控制和角度调整，这超出了当前AI模型的能力范围。尽管AI在简单动作上表现良好，但在复杂动作上仍存在明显缺陷，如肢体扭曲和生物力学错误。此外，体操还强调美学，这进一步增加了AI生成高质量视频的难度。尽管如此，研究人员正在尝试通过引入物理引擎和改进算法来提升AI的表现。

原文链接

阿达旻

12-12 10:51:49

AI视频

体操

图灵测试

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4顶替大学生参加考试，94%作弊未被揭穿，AI作弊毫无破绽

新闻摘要：近期，AI大模型GPT-4在实际大学考试中进行图灵测试，结果显示94%的AI生成内容未被老师识破，且AI成绩显著高于人类，平均高出半个等级。研究团队在英国雷丁大学的心理学和临床语言科学学院进行了隐蔽实验，混入AI答案，仅5%被标记，大部分AI作业被评为First或Upper Second等级。尽管评分员依赖直觉检测，但AI作弊手段高明，只有极少被发现。这一突破引发了对学术诚信及未来教育模式的深度讨论。

原文链接

LunarCoder

06-27 22:51:41

AI作弊

GPT-4

图灵测试

分享至

打开微信扫一扫

内容投诉

生成图片

AI替考大学生，94%作弊成功未被发现

英国研究人员进行了一项实证研究，发现AI代考大学生在2023年夏季的雷丁大学在线考试中，94%的AI生成内容未被教师识别，且平均成绩高于人类学生。AI在简答题和论文题中表现出色，83.4%情况下成绩高于随机选择的同学。研究使用GPT-4生成答案，直接提交，仅通过调整格式以避免露出痕迹。尽管评分过程复杂，人类评分员的直觉并未有效察觉AI作弊。这项结果揭示了AI在学术考试中的「以假乱真」程度，引发了对教育公平和未来课程内容改革的讨论。

原文链接