问题背景 自回归生成每一步都重复计算历史 token,会导致高额开销。 KV Cache 核心思想 把过去 token 的 K/V 保存下来,下一步只计算新 token 并复用历史缓存。 常见权衡 更低延迟 vs 更高显存占用 更大 batch vs 更复杂调度