
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:李飞飞吴佳俊团队推出具身智能决策能力评价基准,o1-preview登顶
大模型的具身智能决策能力有了系统的通用评估基准。李飞飞吴佳俊团队提出的EAI框架对具身智能决策的四项关键子能力进行了全面评估。
该框架已被选为NeurIPS数据和测试集专栏Oral论文,并收录进PyPI,方便调用。EAI框...
原文链接
摘要:
科技媒体The Decoder于9月19日报告,在聊天机器人竞技场的最新评测中,OpenAI的AI模型o1-preview和o1-mini脱颖而出,问鼎榜首。此次评测涉及数学、复杂提示及编程等任务,结果显示,这两款模型在这些领域表现优异,得分显著超越其他模型,最高达1360分。这表明OpenAI在构建能够处理复杂逻辑推理任务的人工智能模型方面取得了重大进展。
值得注意的是,尽管o1-preview和o1-mini在某些特定任务上的表现亮眼,但它们并未在所有领域均优于如GPT-4o或Anthropic's Claude 3.5等成熟模型。此外,由于参与评测的用户数量相对较少,样本量不足,可能影响结果的准确性,限制了其作为最终评价的参考价值。此次评测的发布日期为9月20日,正值人工智能领域的持续发展和技术创新之际,为行业提供了新的基准和参考。
原文链接
北京时间凌晨一点,OpenAI宣布推出新一代大语言模型OpenAI o1-preview,命名为Orion一代。这款模型在推理能力上达到了新高度,被认为是人工智能能力的新里程碑。从今天起,ChatGPTPlus和Team用户可以直接访问该模型,o1-preview的每周限制为30条消息,o1-min...
原文链接
加载更多

暂无内容