OpenAI发布的新模型"o1"被评价为他们至今最强、最一致的模型,在多项测试中表现出接近8倍于其前身"4o"的提升。特别是,在国际数学奥林匹克竞赛、编程竞赛及博士级别的科学问题上,o1模型展现出显著优势。在邀请的三位博士测试中,他们分别涵盖了物理学、材料化学和生物学领域。其中,南京大学物理学博士崔博士对o1的评价最高,认为其水平已达60~80分(满分100分),在某些问题上甚至可评为90分。崔博士的专业方向为量子光学,他在提问关于远距离纠缠光子分发的克服白噪声办法时,o1给出了全面且基于现有研究进展的10点措施。在评估物理领域表现时,崔博士认为o1提升了约20分。
北京大学材料化学博士K博士对o1的回答进行了评价,认为可能具备研究生水平,但在深入认知和提出解决方案的能力较弱,主要基于已知信息作答。K博士举例指出,当询问如何调节Fe-N4材料时,o1能够提到基于电子态调节,但在具体操作方法上显得力不从心。
清华大学生物学博士信博士的提问涉及从质谱数据中区分赖氨酸残基的乳酰化和羧乙基修饰,o1的回答较长且详细,包含参考文献。然而,信博士发现其中的参考文献存在虚构问题,表明AI在引用文献时可能存在错误。尽管如此,信博士仍认为o1的回答在理解和组织结构上有所进步,编造得较为真实。
总体来看,o1模型在物理领域的表现尤为突出,达到了92.8分,远超其他学科。然而,三位博士一致认为,o1模型尚未达到超越专业博士水平的程度。崔博士指出,在实际科研工作中,AI更多提供的是大致方向而非具体解决方案,因此其应用价值有限。K博士强调,AI在认知上虽有硕士生水平,但在创新性方面仍无法与博士相媲美。信博士进一步指出,AI回答的准确性和深度在小同行群体中可能仍存在问题。
o1模型之所以在某些领域表现出色,关键在于其采用了长思维链(CoT)的思考模式,区别于传统的提示链(Prompt chain),允许AI构建逻辑、推理论证,展现出更深层次的思考过程。然而,AI在基础问题上的处理仍有待改进,如在简单比较数字大小的问题上出现错误。总的来说,o1模型在专业领域内展现出的进步值得期待,但其全面应用仍需进一步完善和发展。
.png)

-
2025-07-20 21:10:03
-
2025-07-20 21:09:03
-
2025-07-20 20:08:46