这个定位直接体现在 Terminal-Bench 2.0 上。这个 benchmark 不测单轮答题——给模型一个终端环境和一个模糊目标,让它自己规划路径、调工具、写脚本、处理报错、反复迭代,直到任务完成。