OSDI25 PipeThreader
PipeThreader: Software-Defined Pipelining for Efficient DNN Execution AlpaServe 简单总结 背景问题 现在的深度学习模型越来越大,单块 GPU 内存不够用。 多模型在线服务要保证低延迟、高吞吐量,但请求量有时会突然激增,传统方法效率低。 核心想法 模型并行:把一个模型拆成几部分放到多块 GPU 上。 统计多路复用:当一个 
                - Paper Reading
 - 赖, 海斌
 - 2025-08-21
 - 177 热度
 - 0评论
 
