前缀缓存
Automatic Prefix Caching
跨请求复用相同前缀的 KV Cache,避免重复计算。nano-vllm 在 block_manager.py 中用 xxhash 对 token 块计算哈希,通过 hash_to_block_id 字典实现自动前缀匹配,命中时直接复用物理块并跳过 prefill,显著提升多轮对话和共享 system prompt 场景的吞吐。
子问题
1.块级哈希计算(含前缀链式哈希)
2.缓存命中判断与 num_cached_tokens 跳过
3.缓存失效与驱逐策略
4.prefill 阶段 cu_seqlens_q vs cu_seqlens_k 分离
各项目的解法0 solutions
Signals
最佳实践
1.使用链式哈希(prefix hash → current hash)保证前缀唯一性
2.通过 num_cached_tokens 精确跳过已缓存 token 的 prefill 计算