OSDI25 XSched

scheduling for XPUs 在XPU上实现抢占式调度 CPU的抢占式调度 抢占式调度(Preemptive Scheduling)是一种操作系统调度策略,核心思想是: 当有更高优先级或更紧急的任务需要运行时,操作系统可以立即中断当前正在运行的任务,把 CPU 资源“抢”过来给那个更高优先级的任务。 XPU XPU: FPGA, NPU, GPU 目前在XPU上做了很多的任务 但是好像没

25年7月文章 Attention on Hardware

link: SystolicAttention: Fusing FlashAttention within a Single Systolic Array 这篇文章提出了一种针对 Transformer 模型中的 FlashAttention 加速的新架构 FSA(Full Systolic Attention),旨在解决现有基于 systolic array 的加速器在执行 FlashAtten

FAST25 Mooncake 组会

组会录播 【组会FAST25-Mooncake讨论会】 https://www.bilibili.com/video/BV1ZkgUz5E5n/?share_source=copy_web&vd_source=72eac555730ba7e7a64f9fa1d7f2b2d4 学习笔记 【【RG 25 Spring】 Mooncake】 https://www.bilibili.c

CPP Project4: A 2D GPU Mat

CS205·C/C++ Programming Project4 Report:  A 2D GPU Mat PDF 版本:Project 4 Github: https://github.com/HaibinLai/CS205-CPP-Programing-Project 网页文档:Doxygen 摘要 本次项目的重点在于开发了一个功能强大的GPU矩阵类,该类实现了多数据输入、运算符重载、感兴趣