模型榜单
综合榜单
综合分不是单纯按 Token 大小排序,而是把调用次数、工具成功率和复杂任务承受度合并成一个更接近真实体验的分数。
模型排名
状态摘要
近24h调用榜
融合近24小时调用次数与 Token 消耗,避免“高频低负载”和“低频高负载”模型被单一指标误判。
Token 用量概览
站内 Token 消耗量排行榜
Token Speed Leaderboard
任务复杂度承受度
按工具调用数把任务分成简单、中等、复杂三档,用来观察模型在真实执行任务时的负载结构。
工具失误榜
这里只展示最容易出问题的工具,不混入太多无意义统计。