In-depth analysis: RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference
之前用LLM看文章,后来发现同样20分钟时间,学到的东西其实不如自己认真读读+关键问题请教。 KVCache可以用上 RAG 技术吗? 这篇文章的idea是:能不能 "build KVCache as a Vector Storage System." 在长上下文情况中,KVCache经常超出显存,那么我们只能把多余的KVCache存进CPU内存里。而这样就很慢(CPU-GPU
- Paper Reading
- 赖, 海斌
- 8小时前
- 9 热度
- 0评论
