Haibin's blog－O ever youthful,O ever weeping

FAST25 Mooncake 组会

组会录播【组会FAST25-Mooncake讨论会】 https://www.bilibili.com/video/BV1ZkgUz5E5n/?share_source=copy_web&vd_source=72eac555730ba7e7a64f9fa1d7f2b2d4 学习笔记【【RG 25 Spring】 Mooncake】 https://www.bilibili.c

Paper Reading
赖, 海斌
1天前
4 热度
0评论

MIT6.824 存档：学习笔记

分布式系统组成要素目标：security fault tolerance parallel computing 人们使用大量的相互协作的计算机驱动力是：人们需要获得更高的计算性能。可以这么理解这一点，（大量的计算机意味着）大量的并行运算，大量CPU、大量内存、以及大量磁盘在并行的运行。另一个人们构建分布式系统的原因是，它可以提供容错（tolerate faults）。比如两台计算机运行完全相

读书笔记
赖, 海斌
2天前
11 热度
0评论

OSDI 23 BWoS 更好的多线程work-stealing技术——分块

一篇有趣的文章，做的是新的多生产者多消费者的队列。我猜这篇是他们做量化的同学搞的哈哈哈哈哈。 PowerPoint Presentation OSDI 2023 论文评述 Day3-Session11: Verify Your Bits - 知乎 stdexec/include/exec/detail/bwos_lifo_queue.hpp at main · NVIDIA/stdexec BW

Paper Reading
赖, 海斌
2025-07-30
15 热度
0评论

密码保护：OSDI25 Neutrino

这是一篇受保护的文章，输入密码后才能查看哈

Paper Reading
赖, 海斌
2025-07-30
13 热度
0评论

来自大名鼎鼎的UCB Sky Computing Lab 他们尝试在云里运行LLM Serve 然后他们考虑的场景是 Spot inference。这个场景类似于云的instance很吃紧，然后会经常的扩增和缩小。在这种动态场景下做一个能fault tolerance, load balance的一个推理引擎调度系统。 AI也是微服务 Sky serve 首先把LLM服务当成微服务看待。在这种情况

Paper Reading
赖, 海斌
2025-07-30
11 热度
0评论

循环优化：多面体优化

多面体模型最关注的（可能也是唯一关注的）就是循环的优化。因此对于多面体模型，它只会把一段段程序当成一堆嵌套循环，至于循环里面的内容他是不大关心的。因此在整个框架中，重要的概念只有4个：Domain，instance，dependency和schedule Statement与Instance: 接触过编译器的同学知道Instruction或者Statement，代表一行代码。而在循环中的代码，每个

编译原理
赖, 海斌
2025-07-24
32 热度
0评论

SC25 gLLM

gLLM: Global Balanced Pipeline Parallelism System for Distributed LLM Serving with Token Throttling 几种并行方法尝试消除泡泡：目前在LLM推理里有两种不平衡： stage 间不平衡 inter-stage dependency, where a stage cannot begin comput

Paper Reading
赖, 海斌
2025-07-23
26 热度
0评论

OSDI23 Johnny Cache: the End of DRAM Cache Conflicts (in Tiered Main Memory Systems)

本文解决的是这样的一种情况：在计算机有CXL、SSD等比DRAM 的存储level更低的存储（文中一般称PMEM）下，现有的“把DRAM当PMEM的Cache”的操作易导致生日冲突，引起Rewrite性能下降。Johnny Cache用了新策略（线性的写）避免了该冲突。 In par ticular, we demonstrate that the poor performance observ

Paper Reading
赖, 海斌
2025-07-23
26 热度
0评论

复盘:科研里的反向传播

写在做科研的一年如果一个End2End神经网络的产出是一篇paper，那么复盘是这个网络的反向传播。人们通过复盘，可以调节 “在探索阶段应该跑更多baseline”，“时刻注意我们要做的主题” 等决策想法，从而做到更有效的科研探索。因此，时不时在输出后进行复盘非常重要。这篇文章在写什么？出于兴趣，我开始了计算机系统的研究。在简单看了一些书和talk后，我就找了我的好老板，一起 “创业” 找i

读书笔记
赖, 海斌
2025-07-22
160 热度
1评论

ASPLOS13 Unikernel: A Special Kernel for Apps in cloud

login_oct15_02_kantee.pdf Unikernels - Rethinking Cloud Infrastructure Unikernels: library operating systems for the cloud: ACM SIGARCH Computer Architecture News: Vol 41, No 1 (1 条消息) Unikernel: 从不入门

OS
赖, 海斌
2025-07-19
33 热度
0评论

RetroInfer A Vector Storage Approach for Scalable Long-Context LLM Inference

RetroInfer: A Vector Storage Approach for Scalable Long-Context LLM Inference 微软新突破：RetroInfer如何让AI模型处理百万级文本不再"卡顿"？ microsoft/RetrievalAttention: Scalable long-context LLM decoding that leve

Paper Reading
赖, 海斌
2025-07-04
67 热度
0评论

翻译：x86寄存器的历史

EAX x86 Register: Meaning and History 简明 x86 汇编指南（2017） EAX的故事到底什么是EAX，名字怎么来的。通常，x86教程不会花太多时间解释设计和命名决策的历史背景。在学习x86汇编时，你通常会被告知类似这样的话：这是EAX，它是一个寄存器，用它就行。那么，这些字母到底代表什么？E–A–X。恐怕没有简单的答案！我们得回到1972年…

文章翻译
赖, 海斌
2025-06-22
82 热度
0评论

huawei 384 节点推理系统赏析

我最好奇的是，这种extreme parallelism是怎么做的。技术报告 *Serving Large Language Models on Huawei CloudMatrix384 用1机384节点来执行Deepseek R1 671B的推理，采用了3个优化优化1 一个p2p的架构，将LLM推理拆解为prefill, decode, caching 优化2 large-scale ex

Paper Reading
赖, 海斌
2025-06-22
221 热度
0评论

PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

推理引擎会成为新时代的操作系统吗？ RG-1210 PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU 2406.06282 【【RG 24 Fall】PowerInfer: Fast Large Language Model Serving with a Consumer-grad..】 https://

Paper Reading
赖, 海斌
2025-06-22
107 热度
0评论

写博客的一周年

不知不觉中，我建立自己的博客已经有一年了。想在这里分享一些感悟。我的大脑记忆像是一个随时丢失的网状数据库。丢失知识是常态，但因为知识之间有像网一样的连接，我们常能根据临近知识点推导或恢复出原本的内容。分布式存储里我们用奇偶校验构建容错，人脑里可能更像是一张知识网。虽然我们没有RAID，但我们有类比和抽象的能力。当然，有一个强大的大脑加上不断的练习，可以构建一个不错的知识库。但有没有什么方式，可

读书笔记
赖, 海斌
2025-06-18
191 热度
2评论

已弃坑：oneDNN架构解读

PS：这玩意已经不更新了，intel 放弃了哈哈哈哈哈哈哈。 https://zhuanlan.zhihu.com/p/20510564015 oneDNN是Intel开源的深度学习加速库，其前身为MKLDNN，对于Intel自家硬件（CPU以及GPU），oneDNN对神经网络算子的计算过程进行了针对性的优化处理，从而显著提升了神经网络算子在Intel硬件下的计算速度。在训练侧，oneDNN已作为

框架赏析
赖, 海斌
2025-06-17
117 热度
0评论

自顶向下了解llama.cpp – ggml

由于工作要求，我尝试识读了llama.cpp框架在cpu端侧的推理情况。其实GPU端的结构我推测跟cpu差不多，只不过在底层算子会有区别，但是上层计算图等架构应该是差不多的。好的，以下是我这个生成式AI给您生成的20000字长文（ChatGPT 也可能会犯错。请核查重要信息。）：学习链接 HF 导引 Introduction to ggml github源码 ggml 源码搭建 llama.c

框架赏析
赖, 海斌
2025-06-17
422 热度
0评论

AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving

模型并行性通常被视为一种将单个大型深度学习模型扩展到单个设备内存限制之外的方法。在本文中，我们证明了在为多个模型提供服务时，模型并行还可以用于多个设备的统计多路复用，即使单个模型可以适应单个设备。我们的工作揭示了模型并行性引入的开销与利用统计多路复用来减少突发工作负载下服务延迟的机会之间的基本权衡。我们探索了新的权衡空间，并提出了一种新的服务系统 AlpaServe，它确定了在分布式集群中放置和并

Paper Reading
赖, 海斌
2025-06-16
95 热度
0评论

xFastTransformer 架构解读

省流：这东西2年前做的，最麻烦的是文档很少，基本都要从零开始研究代码，考虑时间成本我没有花很多精力。如果大家想在单机上用CPU推理，也可以试试intel pytorch extension或者llama.cpp。（不过xFt相比他们俩的好处是，它的代码结构也相对比较简单易懂，大家都可以自由选择）但是目前这个东西没有用计算图优化，它每次计算都要重开openmp并行域，感觉这会出点问题。 Exam

框架赏析
赖, 海斌
2025-06-13
100 热度
0评论