
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。
港大、剑...
原文链接
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强
首个聚焦电商基础概念的可扩展问答基准ChineseEcomQA发布,由淘天集团推出。传统基准难以兼顾电商任务多样性和领域特殊性,而大模型常因生成事实性错误信息受限制。ChineseEcomQA针对性设计三大核心:基础概念覆盖...
原文链接
标题:人类给AI的“最后考试”:HLE基准测试
随着AI大模型在众多任务上超越人类水平,人类与AI共生时代来临。为了跟踪AI进展,新的基准HLE(Humanity's Last Exam)应运而生。HLE是一个多模态基准,涵盖3000多个高难度问题,涉及上百门学科,由全球近1000名专家创建。
HL...
原文链接
全世界最懂大模型的两个产品经理,一起聊怎么做AI产品
这可能是最懂AI产品的两位产品经理之间的对谈。Kevin Weil,OpenAI首席产品官(CPO),曾是Instagram、Twitter的产品副总裁;Mike Krieger,Anthropic CPO,曾是Instagram的联合创始人、C...
原文链接
Meta公司近日发布了一项创新性技术——“自学评估器”,旨在解决自然语言处理(NLP)领域依赖人工注释评估AI模型的问题。这一技术利用合成数据训练AI,显著减少了对人工注释的依赖。与GPT-4等常用AI大语言模型相比,“自学评估器”在评估性能上表现出色。MetaFAIR团队在Llama-3-70B-Instruct模型上测试此技术,将准确率从75.4提升至88.7,超越了使用人类注释训练的模型。这项突破性进展展示了合成数据在加强模型评估方面的潜力,为NLP技术发展带来了新的机遇。
原文链接
加载更多

暂无内容