GPU－Haibin's blog

ATC25 Colocating ML Inference and Training with Fast GPU Memory Handover

今天yf来分享一篇来自IPADS的ATC25文章。 Colocating ML Inference and Training with Fast GPU Memory Handover 简短点评：依旧IPADS特有的大工程，TVM+vLLM+NCCL+Pytorch 开组会大家一起问了很多问题。 https://ipads.se.sjtu.edu.cn/_media/publications/si

Paper Reading
Haibin
2026-01-15
294 Views
0 Comments

Can Tensor Cores Benefit Memory-Bound Kernels? (NO!)

本文学习自 Can Tensor Cores Benefit Memory-Bound Kernels? (NO!) https://dl.acm.org/doi/pdf/10.1145/3725798.3725803 这篇文章提出了一个有点惊人的观点：Tensorcore在面对 memory bound 的kernel/算子时效果并不是很好！文章用优秀的理论公式分析+实验验证了这点。读懂这篇文章

Paper Reading
Haibin
2025-11-02
336 Views
0 Comments

Eurosys24 Orion – GPU Kernel Scheduling for ML Inference

Paper Orion: Interference-aware, Fine-grained GPU Sharing for ML Applications Github eth-easl/orion: An interference-aware scheduler for fine-grained GPU sharing Abstract GPUs are critical for maximiz

Paper Reading
Haibin
2025-10-10
871 Views
0 Comments

ICPP24 Grace Hopper GPU中的系统内存管理

文章链接：Harnessing Integrated CPU-GPU System Memory for HPC: a first look into Grace Hopper NVIDIA Grace Hopper 与 NVLink Fusion 架构对异构并行计算优化的影响 - William的文章 - 知乎 https://zhuanlan.zhihu.com/p/1911971133923

Paper Reading
Haibin
2025-08-30
922 Views
0 Comments

NSDI23 Transparent GPU Sharing in Container Clouds for Deep Learning Workloads

这篇文章介绍了一种名为 TGS (Transparent GPU Sharing) 的系统，旨在在容器云环境中在OS层为深度学习（DL）训练工作负载提供透明的GPU共享，以提高GPU利用率并减少作业完成时间。 links: https://www.usenix.org/conference/nsdi23/presentation/wu 1. 背景与动机容器云与DL训练：容器（如Docker）在数

Paper Reading
Haibin
2025-08-29
411 Views
0 Comments

OSDI25 XSched

scheduling for XPUs 在XPU上实现抢占式调度 CPU的抢占式调度抢占式调度（Preemptive Scheduling）是一种操作系统调度策略，核心思想是：当有更高优先级或更紧急的任务需要运行时，操作系统可以立即中断当前正在运行的任务，把 CPU 资源“抢”过来给那个更高优先级的任务。 XPU XPU: FPGA, NPU, GPU 目前在XPU上做了很多的任务但是好像没

Paper Reading
Haibin
2025-08-12
479 Views
0 Comments

25年7月文章 Attention on Hardware

link: SystolicAttention: Fusing FlashAttention within a Single Systolic Array 这篇文章提出了一种针对 Transformer 模型中的 FlashAttention 加速的新架构 FSA（Full Systolic Attention），旨在解决现有基于 systolic array 的加速器在执行 FlashAtten

Paper Reading
Haibin
2025-08-06
468 Views
0 Comments

FAST25 Mooncake 组会

组会录播【组会FAST25-Mooncake讨论会】 https://www.bilibili.com/video/BV1ZkgUz5E5n/?share_source=copy_web&vd_source=72eac555730ba7e7a64f9fa1d7f2b2d4 学习笔记【【RG 25 Spring】 Mooncake】 https://www.bilibili.c

Paper Reading
Haibin
2025-08-02
399 Views
0 Comments

密码保护：OSDI25 Neutrino

这是一篇受保护的文章，输入密码后才能查看哈

Paper Reading
Haibin
2025-07-30
250 Views
0 Comments

CPP Project4: A 2D GPU Mat

CS205·C/C++ Programming Project4 Report: A 2D GPU Mat PDF 版本：Project 4 Github: https://github.com/HaibinLai/CS205-CPP-Programing-Project 网页文档：Doxygen 摘要本次项目的重点在于开发了一个功能强大的GPU矩阵类，该类实现了多数据输入、运算符重载、感兴趣

CPP
Haibin
2024-09-09
1563 Views
1 Comments