程序员自制开源 AI 评分工具，衡量大模型“愚蠢程度”

2025-09-18 12:53:24

梦境编程师

发布在

快讯

阅读：1552

9月18日，程序员ionutvi发布开源AI评分工具AI Benchmark Tool，用于衡量各大AI模型的“愚蠢程度”，帮助用户选择准确性高且性价比优的AI工具。开发者指出，像ChatGPT、Grok、Claude等模型有时会出现性能波动，甚至官方有意降低性能。该工具通过运行140项编程、调试和优化任务，从准确性、拒绝回答率、响应时间和稳定性等方面评估模型表现，并结合价格综合评比使用成本。例如，某些低价模型需多次迭代才能获得可用答案，而高价模型可能更高效。工具已开源，链接供用户查看。

原文链接

本文链接：https://kx.umi6.com/article/25437.html

转载请注明文章出处

AI评分工具