huawei 384 节点推理系统赏析
我最好奇的是,这种extreme parallelism是怎么做的。 技术报告 *Serving Large Language Models on Huawei CloudMatrix384 用1机384节点来执行Deepseek R1 671B的推理,采用了3个优化 优化1 一个p2p的架构,将LLM推理拆解为prefill, decode, caching 优化2 large-scale ex 
                - Paper Reading
 - 赖, 海斌
 - 2025-06-22
 - 712 热度
 - 0评论
 
