OSDI25 PipeThreader
PipeThreader: Software-Defined Pipelining for Efficient DNN Execution AlpaServe 简单总结 背景问题 现在的深度学习模型越来越大,单块 GPU 内存不够用。 多模型在线服务要保证低延迟、高吞吐量,但请求量有时会突然激增,传统方法效率低。 核心想法 模型并行:把一个模型拆成几部分放到多块 GPU 上。 统计多路复用:当一个
- Paper Reading
- 赖, 海斌
- 2025-08-21
- 51 热度
- 0评论