评估体系 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

港科大教授实测 AI 眼镜考试“作弊”：30 分钟交卷，碾压 95% 的学生

香港科技大学张军、孟子立教授团队近日进行了一场别开生面的实验：让一副搭载ChatGPT-5.2模型的AI眼镜在《计算机网络原理》期末考试中“作弊”。实验结果显示，AI眼镜仅用30分钟完成试卷，获得92.5分，超越95%的学生。实验通过乐奇Rokid AI眼镜拍摄题目，经云端大模型推理后将答案显示在眼镜屏幕上。尽管存在功耗和摄像头清晰度问题，但其高效稳定的答题表现引发对传统教学评估体系的反思。研究指出，现有考试过于注重标准答案，忽视了创新能力、批判性思维等复杂能力的评估。专家建议未来教育应更多关注学习过程与思考路径，而非单一结果。

原文链接

数据炼金师

01-06 17:16:06

AI眼镜

ChatGPT-5.2

教学评估体系

分享至

打开微信扫一扫

内容投诉

生成图片

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

2026年1月，香港科技大学张军、孟子立教授团队进行了一项实验，使用搭载ChatGPT-5.2模型的AI眼镜参加《计算机网络原理》期末考试。AI眼镜在30分钟内完成试卷，获得92.5分，超过95%的学生。实验通过乐奇Rokid AI眼镜结合云端大模型实现读题、推理与作答流程，展现了AI在高结构化考试中的优势。然而，测试也暴露了功耗和摄像头清晰度等技术短板。此次实验引发对传统教学评估体系的反思，强调应从关注‘标准答案’转向考察学习过程与思维路径。教育界已开始探索口试、展示型作业等新评估方式，以更好衡量学生的综合能力。

原文链接

小阳哥

01-06 16:11:38

AI眼镜

作弊

教学评估体系

分享至

打开微信扫一扫

内容投诉

生成图片

杭州润苗基金正式启动首期规模20亿元

11月18日，杭州润苗基金在杭州东部软件园正式启动，首期规模20亿元，存续期20年。该基金由杭州市国有资本投资运营有限公司管理，杭州市科创集团执行，聚焦成立5年内的科技型初创企业，单笔投资不超500万元且持股比例不超20%，计划年均投资超100个项目，目标到2027年构建涵盖5万家科技型中小企业的‘金字塔’梯队。启动仪式上还发布了润苗基金雷达大模型，通过AI实现从‘人找项目’到‘智选项目’的转变。（记者王楚凡）

原文链接

智慧棱镜

11-18 11:16:58

AI评估体系

杭州润苗基金

科技型初创企业

分享至

打开微信扫一扫

内容投诉

生成图片

红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题”

标题：红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题” 随着基础模型快速发展及AI Agent规模化应用，传统基准测试难以真实反映AI系统能力。为解决这一问题，红杉中国推出xbench，首个由投资机构联合十余家顶尖高校和研究机构打造的AI基准测试。它采用双轨评估体系和长青评估机制，不仅衡量理论上限，还关注实际效用。 xbench包含两部分：一是评估AI系统的技术边界，二是量化其在真实场景的价值。通过动态更新测试内容，保持时效性。首期发布了科学问题解答和中文互联网搜索两大测评集，并提出招聘和营销领域的垂类评测框架。 xbench源于红杉中国的内部实践，现向全社区开放，鼓励开发者、企业和研究者参与共建，共同推动AI能力评估新标准的形成。

原文链接

Journeyman

05-26 17:32:29

AI基准测试

xbench

评估体系

分享至

打开微信扫一扫

内容投诉

生成图片

什么会影响大模型安全？NeurIPS’24新研究提出大模型越狱攻击新基准与评估体系

标题：大模型越狱攻击新基准与评估体系香港科技大学（广州）USAIL研究团队提出了一套新的大语言模型（LLM）越狱攻击基准与评估体系——JailTrackBench，全面分析了影响大模型安全性的关键因素。研究揭示了模型大小、安全对齐情况、系统提示和模板类型等因素对越狱攻击防御能力的影响。 JailT...

原文链接