ISCA25 Neoscope: How Resilient Is My SoC to Workload Churn?

未来的硬件怎么应对不断演变的软件? https://dl.acm.org/doi/pdf/10.1145/3695053.3731014 这篇文章是 ISCA 2025 的论文 《Neoscope: How Resilient Is My SoC to Workload Churn?》,核心在回答一个非常系统/架构导向的问题: 当软件和工作负载不断演进(churn)时,一个 SoC 设计在整个生命

STOC81 I/O Complexity: The Red-Blue Pebble Game

STOC81 I/O Complexity: The Red-Blue Pebble Game 这是一篇理论计算机科学文章,但是描述了一个非常有趣的问题:就像时间复杂度一样,我们能不能做一个I/O复杂度,衡量一个程序最少要进行多少次I/O? 文章链接: https://www.eecs.harvard.edu/~htk/publication/1981-stoc-hong-kung.pdf Com

In-depth analysis: RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

之前用LLM看文章,后来发现同样20分钟时间,学到的东西其实不如自己认真读读+关键问题请教。 KVCache可以用上 RAG 技术吗? 这篇文章的idea是:能不能 "build KVCache as a Vector Storage System." 在长上下文情况中,KVCache经常超出显存,那么我们只能把多余的KVCache存进CPU内存里。而这样就很慢(CPU-GPU

DnCC3: Introduction to Spark

In this assignment, we need to use Spark to analyze the Parking dataset. Preparing Install pysark and java pip install pyspark sudo apt-get update sudo apt-get install openjdk-17-jdk export JAVA_HOME=

怎么用AI写2000行的大作业

最近分布式课程有一个作业。作业内容是要写一个商城的后端。商城消费者通过网页API访问/消费商品,后端商品数据库有CRUD、产品消费消息订阅服务。分解开来,要有OpenAPI Service后端接口服务,Database Service数据库服务和logging Service日志服务,3个微服务全上docker,工程量2000-3000行python。 这个作业在我与GPT、Deepseek的配合

AI Compiler Group Meeting

109 pages PPT,from TVM to Mirage. Introducing AI Compiler 101. Cost 90 minutes. PPT and videos: https://drive.google.com/drive/folders/1eKcHZKMpix31EcioiNCf16AzLIHkvGyy?usp=sharing

Can Tensor Cores Benefit Memory-Bound Kernels? (NO!)

本文学习自 Can Tensor Cores Benefit Memory-Bound Kernels? (NO!) https://dl.acm.org/doi/pdf/10.1145/3725798.3725803 这篇文章提出了一个有点惊人的观点:Tensorcore在面对 memory bound 的kernel/算子时效果并不是很好!文章用优秀的理论公式分析+实验验证了这点。读懂这篇文章

Distributed System 5: Bayou Algorithm

分布式一致性 怎么在弱网情况下保证事件一致性,弱网指的是,只能时不时连接一下。 Bayou (1995) Bayou是一篇神奇的论文,在1995年这个互联网还没有普及的时代,就开始讨论分布式系统中弱一致性的问题。Bayou考虑的应用场景是移动设备不具备稳定的网络连接,如何保证这些不具备稳定网络连接的设备组成集群,处理读写操作时,用户看到的数据是合理的。Dynamo

Distributed System 4: Chandy-Lamport Algorithm

Snapshots: save the data 我们想要捕捉系统在某一时刻 TTT 的一致全局状态,包括: 每个进程的本地状态; 每条通道上的消息状态(即“正在飞”的消息)。 常见应用场景: 检查点恢复(Checkpoint / Rollback Recovery) 检测全局死锁 检测全局不变式(如是否所有账户加和为常数) 调试 / 稳定状态检测(如终止检测) 问题是: 在分布式系统中没有全局时

Distributed System 3: Vector Clock

Review: Time is important in Distributed, for determine sequence. But we can\'t find a sync time for everyone. Vector Clock Lamport didn\'t solve: Solution: use a vector clock 两个向量一样:同一个事件 一个向量小于另一个向量:所

GridFTP: SC25 Test of Time Award

How to move massive data from server to client? How to serve multiple users around the world to use the compute machine? This technology was not invented in cloud computing, but grid computing. And th