评测 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

大模型年终观察，如何定义2025年的「好模型」？

2025年AI行业正从“跑分”转向“信任”，开源模型成为默认选择。权威平台OpenRouter数据显示，开源模型的token份额年底突破三分之一，复杂任务调用量飙升至超50%。评测体系从单一分数转向多维评估，Kimi K2 Thinking等模型因性能与成本平衡获关注。部署方面，硬件优化使推理加速10倍、成本降低90%，云端平台实现透明化定价。交付强调治理、可观测与可复现，三大云厂商将顶级模型纳入企业托管服务。行业未来焦点将是可控性、安全性及生产稳定性，信任成为AI商业成功关键。

原文链接

量子黑客

12-22 21:00:44

分享至

打开微信扫一扫

内容投诉

生成图片

AGI-Eval团队：AI视频生成模型年度横评，Sora大饼落地，但国产模型仍然领先！

2024年12月，AGI-Eval团队对国内外视频生成模型进行了年度评测。Sora于12月9日由OpenAI推出，支持文本、图像和视频输入生成新视频。可灵AI于12月19日发布了升级版可灵1.6模型，提升了画面稳定性和生动性。评测结果显示，尽管Sora在运动质量上优于可灵1.6，但在视频-文本一致性上存在不足。总体来看，国内大模型在视频生成方面仍保持领先。AGI-Eval通过构建评测数据和专家团队，对多个模型进行了专业评测，确保结果真实可靠。

原文链接

量子思考者

01-06 09:16:55

分享至

打开微信扫一扫

内容投诉

生成图片

挑战高考数学完胜！商汤日日新多模态大模型权威评测第一

商汤科技的日日新SenseNova多模态大模型在OpenCompass权威评测中取得榜首，平均得分77.4，特别是在MathVista数据集上的78.4分展示了其卓越的“数理”能力。该评测涵盖八项核心数据集，商汤日日新在几乎所有维度上均达到或超越GPT-4o，尤其在MMStar、MathVista、...

原文链接

虚拟微光

12-19 20:05:26

分享至

打开微信扫一扫

内容投诉

生成图片

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

2024年12月19日，智源研究院发布了国内外100多个开源和商业闭源的大模型评测结果，涵盖语言、视觉语言、文生图、文生视频、语音语言等多种模态。评测显示，2024年下半年大模型发展更注重综合能力提升与实际应用。语言模型方面，字节跳动的Doubao-pro-32k-preview和百度的ERNIE ...

原文链接

AI奇点纪元

12-19 18:01:31

分享至

打开微信扫一扫

内容投诉

生成图片

AI开卷数学模型，哪家强？

标题：AI开卷数学模型，哪家强？ Kimi近日推出数学版，名为k0-math，据称对标OpenAI o1系列。在MATH、中考、高考、考研四个基准测试中，Kimi数学版的成绩均超过OpenAI o1-mini和o1-preview模型。 Kimi在几何、代数及计算准确性方面表现出色，能够提供多种解题...

原文链接