MLSys－Haibin's blog

In-depth analysis: RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

之前用LLM看文章，后来发现同样20分钟时间，学到的东西其实不如自己认真读读+关键问题请教。 KVCache可以用上 RAG 技术吗？这篇文章的idea是：能不能 "build KVCache as a Vector Storage System." 在长上下文情况中，KVCache经常超出显存，那么我们只能把多余的KVCache存进CPU内存里。而这样就很慢（CPU-GPU

Paper Reading
赖, 海斌
1天前
22 热度
0评论

huawei 384 节点推理系统赏析

我最好奇的是，这种extreme parallelism是怎么做的。技术报告 *Serving Large Language Models on Huawei CloudMatrix384 用1机384节点来执行Deepseek R1 671B的推理，采用了3个优化优化1 一个p2p的架构，将LLM推理拆解为prefill, decode, caching 优化2 large-scale ex

Paper Reading
赖, 海斌
2025-06-22
1048 热度
0评论

PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

推理引擎会成为新时代的操作系统吗？ RG-1210 PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU 2406.06282 【【RG 24 Fall】PowerInfer: Fast Large Language Model Serving with a Consumer-grad..】 https://

Paper Reading
赖, 海斌
2025-06-22
355 热度
0评论