问题域/PD-25

前缀缓存

Automatic Prefix Caching

跨请求复用相同前缀的 KV Cache,避免重复计算。nano-vllm 在 block_manager.py 中用 xxhash 对 token 块计算哈希,通过 hash_to_block_id 字典实现自动前缀匹配,命中时直接复用物理块并跳过 prefill,显著提升多轮对话和共享 system prompt 场景的吞吐。

子问题

1.块级哈希计算(含前缀链式哈希)

2.缓存命中判断与 num_cached_tokens 跳过

3.缓存失效与驱逐策略

4.prefill 阶段 cu_seqlens_q vs cu_seqlens_k 分离

各项目的解法0 solutions

Signals

最佳实践

1.使用链式哈希(prefix hash → current hash)保证前缀唯一性

2.通过 num_cached_tokens 精确跳过已缓存 token 的 prefill 计算