daily_brief

AI评估成本暴涨380%：算力瓶颈的第三次转移

大模型评估环节年耗资增速达训练成本3倍，测试基础设施短缺正重塑AI行业竞争格局。

2026-05-01 evals-becoming-compute-bottleneck-title-url ai-daily-brief

内容摘要

一、发生了什么 Hugging Face最新技术报告揭示了AI开发成本结构的重大转变：对于Llama3 400B级别的模型，单次完整评估成本已突破50万美元门槛。这意味着评估一个模型的成本相当于训练5个BERT Large模型的全部费用。更关键的是，IBM披露的Granite 4.1开发数据显示，评估环节消耗了总预算的40%，而评估集群的平均GPU利用率仅为58%，显著低于训练阶段的83%利用率水平。这种资源浪费源于评估工作的特殊性质——不同于训练时可以持续满载运算，评估需要频繁切换测试场景和加载不同数据子集。换句话说，评估正在成为新的算力黑洞，而且这个黑洞的膨胀速度远超预期。二、为什么这件事值得关注 1. 评估成本增速远超训练成本行业追踪数据显示，评估成本年增长率高达380%，是训练成本增速（120%）的3倍以上。这种差异源于两个结构性变化：首先，动态评估体系要求模型在部署后仍需持续测试，形成了"评估即服务"的新业态；其次，多模态评估的普及使得测试矩阵呈指数级扩张。以视频理解任务为例，评估所需计算量已是三年前的17倍。问题在于，这种成本增长不具有规模效应。训练成本可以通过更大的batch size分摊，而评估每个新场景都需要独立测试流程。这意味着评估成本将长期保持刚性增长，最终可能吞噬整个AI研发预算的60%以上。 2. 小团队面临更严峻的生存压力开源社区正遭遇测试基础...