
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
近日,一篇题为《排行榜幻觉》的论文指出,大模型竞技场Chatbot Arena存在系统性问题。研究发现,Meta在Llama4发布前私下测试了27个版本,最终只公布最佳成绩,且少数大厂享有数据访问优势。此外,竞技场数据可显著提升模型性能,最高可达112%,但205个模型被静默弃用,远超官方公布的47个。研究团队建议改进规则以提高公平性。对此,Lmarena.ai回应称,排行榜反映真实用户偏好,但承认存在测试偏差。论文由多家学术机构及Cohere团队联合发布,呼吁不应仅依赖单一榜单评价模型。此争议引发行业反思,有人推荐OpenRouter作为替代方案。
原文链接
Meta创始人扎克伯格在LlamaCon大会上回应Llama4与DeepSeek的对比争议,称现有开源基准测试存在缺陷,偏向特定用例,未能真实反映模型优劣。他指出Llama4未针对榜单优化,排名靠后属正常现象。此外,Llama4推理模型llama4-reasoning-17b-instruct正在开发中。大会透露Meta将推出超2万亿参数的Llama 4 Behemoth及80亿参数的“Little Llama”小模型,并推出官方Llama API平台。扎克伯格强调AI生产力提升可能带来效率与代码质量双重改善,但智能爆炸面临物理基础设施和技术普及等挑战。Meta还展示了利用Llama API进行多模态任务的能力,但AI对复杂场景的识别仍有待优化。
原文链接
Meta推出的Llama4因技术掺水引发争议,多项实测显示其性能落后于前代及同量级模型。该版本存在上下文错误、基准测试造假等问题,核心卖点多模态能力亦未达标,引发公众不满。此次匆忙上线源于Meta面临的内外压力:GPT-4o等闭源模型的领先与DeepSeek等开源模型的崛起,使其急于挽回市场信心。然而,过度追求速度导致技术团队忽视创新,沿用传统方法未能突破瓶颈。开源模式虽不依赖C端付费,但需构建生态吸引企业合作,Meta此举意在防止开发者流失。Llama4的失败警示:模型开源需避免恶性内卷,应聚焦差异化创新与实际应用场景。同时,开发者需警惕开源许可限制及部署门槛。真正的开源成功需以技术为核心,而非单纯追求短期热度。
原文链接
Meta 推出 Llama 4 系列模型,包括 Llama 4 Scout、Maverick 和 Behemoth,引发广泛关注。该系列由 20 万显卡集群训练,号称具备顶级视觉理解和多模态能力。然而,实际测试中 Llama 4 的表现却令人失望。
网友发现,Llama 4 在几何生成等基础任务中多...
原文链接
标题:Llama 4遭遇竞技场争议:特供版刷榜疑云
正文:
Meta旗下的Llama 4因在大模型竞技场Chatbot Arena上的表现引发争议。Arena官方指责Meta提供的版本为特供版,并未如实标注。官方已公开超过2000组对战数据,显示模型回复风格与语气是排名的重要影响因素。
初步分析表...
原文链接
Meta推出的Llama 4因实测表现不佳引发争议,被称为今年AI界最大‘翻车’事件。尽管Meta宣称其为原生多模态模型且参数高达2万亿,但在编码和多语言编程任务中表现垫底,甚至不如一些小型模型。网友批评其在物理模拟等任务上的表现也欠佳。更令人质疑的是,有爆料称Llama 4可能通过将测试集混入训练集来刷分,涉嫌作弊。Meta官方虽否认,但内部员工的离职潮加剧了外界对其研发过程的猜测。此外,开源模型的竞争愈发激烈,Google Gemma、阿里Qwen及DeepSeek等模型正崭露头角,显示开源AI领域已进入百花齐放阶段。
原文链接
Meta发布Llama 4系列,包含Scout、Maverick和Behemoth三种型号,强调多模态和超长上下文窗口,部分模型开源但使用受限。OpenAI确认O3和O4-mini即将上线,GPT-5因技术整合延迟数月,但将对免费用户提供无限使用权限。DeepSeek与清华合作发布SPCT方法,提升推理扩展性能,暗示DeepSeek R2进展迅速。Meta投入650亿美元扩展AI基础设施,展现行业竞争加剧。
原文链接
“开源王者”Llama4发布,让DeepSeek等竞品松了一口气。
4月5日,Meta推出了备受期待的Llama4系列开源模型,包含Llama 4 Scout、Llama 4 Maverick和即将发布的Llama 4 Behemoth,分别满足不同场景需求。Llama 4 Scout支持多模态任务...
原文链接
美国时间周六,Meta紧急发布了Llama 4系列模型,包括Llama 4 Scout、Maverick和Behemoth三款。Llama 4 Scout参数量达1090亿,适合单个Nvidia H100 GPU运行;Maverick参数量4000亿,表现均衡;Behemoth参数量近2万亿,擅长STEM领域任务。Llama 4首次采用混合专家架构,原生支持多模态数据处理。Meta因竞争对手可能发布更强多模态模型而提前发布,但Benchmark榜单不够全面,Reasoning Model未同步推出。尽管如此,Llama 4展示了强大算力对模型发展的推动作用,再次证明了算力为核心竞争力的地位。
原文链接
Llama 4发布:拥抱新架构与多模态融合
Meta发布了Llama 4系列,没有再强调参数量的绝对优势,而是推出了三款针对性的模型:Scout、Maverick和Behemoth。Scout(109B参数)适合单卡部署,支持长上下文任务;Maverick(400B参数)性能媲美GPT-4o,推...
原文链接
加载更多

暂无内容