AI评分工具 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

程序员自制开源 AI 评分工具，衡量大模型“愚蠢程度”

9月18日，程序员ionutvi发布开源AI评分工具AI Benchmark Tool，用于衡量各大AI模型的“愚蠢程度”，帮助用户选择准确性高且性价比优的AI工具。开发者指出，像ChatGPT、Grok、Claude等模型有时会出现性能波动，甚至官方有意降低性能。该工具通过运行140项编程、调试和优化任务，从准确性、拒绝回答率、响应时间和稳定性等方面评估模型表现，并结合价格综合评比使用成本。例如，某些低价模型需多次迭代才能获得可用答案，而高价模型可能更高效。工具已开源，链接供用户查看。

原文链接