In-depth analysis: RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

之前用LLM看文章,后来发现同样20分钟时间,学到的东西其实不如自己认真读读+关键问题请教。 KVCache可以用上 RAG 技术吗? 这篇文章的idea是:能不能 "build KVCache as a Vector Storage System." 在长上下文情况中,KVCache经常超出显存,那么我们只能把多余的KVCache存进CPU内存里。而这样就很慢(CPU-GPU

怎么用AI写2000行的大作业

最近分布式课程有一个作业。作业内容是要写一个商城的后端。商城消费者通过网页API访问/消费商品,后端商品数据库有CRUD、产品消费消息订阅服务。分解开来,要有OpenAPI Service后端接口服务,Database Service数据库服务和logging Service日志服务,3个微服务全上docker,工程量2000-3000行python。 这个作业在我与GPT、Deepseek的配合

AI Compiler Group Meeting

109 pages PPT,from TVM to Mirage. Introducing AI Compiler 101. Cost 90 minutes. PPT and videos: https://drive.google.com/drive/folders/1eKcHZKMpix31EcioiNCf16AzLIHkvGyy?usp=sharing

Can Tensor Cores Benefit Memory-Bound Kernels? (NO!)

本文学习自 Can Tensor Cores Benefit Memory-Bound Kernels? (NO!) https://dl.acm.org/doi/pdf/10.1145/3725798.3725803 这篇文章提出了一个有点惊人的观点:Tensorcore在面对 memory bound 的kernel/算子时效果并不是很好!文章用优秀的理论公式分析+实验验证了这点。读懂这篇文章

Distributed System 5: Bayou Algorithm

分布式一致性 怎么在弱网情况下保证事件一致性,弱网指的是,只能时不时连接一下。 Bayou (1995) Bayou是一篇神奇的论文,在1995年这个互联网还没有普及的时代,就开始讨论分布式系统中弱一致性的问题。Bayou考虑的应用场景是移动设备不具备稳定的网络连接,如何保证这些不具备稳定网络连接的设备组成集群,处理读写操作时,用户看到的数据是合理的。Dynamo

Distributed System 4: Distributed Snapshots

Snapshots: save the data 我们想要捕捉系统在某一时刻 TTT 的一致全局状态,包括: 每个进程的本地状态; 每条通道上的消息状态(即“正在飞”的消息)。 常见应用场景: 检查点恢复(Checkpoint / Rollback Recovery) 检测全局死锁 检测全局不变式(如是否所有账户加和为常数) 调试 / 稳定状态检测(如终止检测) 问题是: 在分布式系统中没有全局时

Distributed System 3: Vector Clock

Review: Time is important in Distributed, for determine sequence. But we can\'t find a sync time for everyone. Vector Clock Lamport didn\'t solve: Solution: use a vector clock 两个向量一样:同一个事件 一个向量小于另一个向量:所

GridFTP: SC25 Test of Time Award

How to move massive data from server to client? How to serve multiple users around the world to use the compute machine? This technology was not invented in cloud computing, but grid computing. And th

Distributed System 2: Time

不同的机器需要同步 分布式实时操作系统研究的是 如何在分布式多节点环境中,提供确定性调度、时间同步、实时通信与容错机制,从而保证关键任务的 deadline 被满足。它既是操作系统的研究热点,也与工业控制、车联网、航空航天等应用紧密相关。 下面的图片是: 分布式系统需要同步 同步非常困难 我们是无法完全同步的,只能尽力同步 网络时间协议: Cristian\'s algorithm 我们很不幸,是无

Distributed System 1: RPC

This is a course taught in SUSTech 2025 Fall by Prof. Zhuozhao Li. RPC 为什么要有RPC 因为我们不想socket编程 Goal: Easy-to-program network communication that makes client-server communication transparent RPC 要解决的问题