• 最新文章
  • 计算机科学
  • 读书笔记
  • CPP
  • OS
  • 图论
  • 交叉学科
  • 大数据
  • 微专题
  • 转载文章

Compiler: Intro

Operations on Languages Languages: accountable for strings Lexer Lexical Analyzer(词法分析器,也叫 Scanner)在编译器中扮演着 前端第一步的角色。它的主要任务是把源代码(程序员写的字符序列)转化为 Token 序列,供后续的语法分析器(Parser)使用。下面我分点介绍它的作用: 1. 输入与输出 输入:源程序

Distributed System: Time

不同的机器需要同步 分布式实时操作系统研究的是 如何在分布式多节点环境中,提供确定性调度、时间同步、实时通信与容错机制,从而保证关键任务的 deadline 被满足。它既是操作系统的研究热点,也与工业控制、车联网、航空航天等应用紧密相关。 下面的图片是: 分布式系统需要同步 同步非常困难 我们是无法完全同步的,只能尽力同步 网络时间协议: Cristian\'s algorithm 我们很不幸,是无

Distributed System: RPC

This is a course taught in SUSTech 2025 Fall by Prof. Zhuozhao Li. RPC 为什么要有RPC 因为我们不想socket编程 Goal: Easy-to-program network communication that makes client-server communication transparent RPC 要解决的问题

ICPP25 Conference story: Day 2

Anne Elster, "Parallel Computing and Geophysical Forecasting" Professor Anne C. Elster Norwegian Univ. of Science and Technology Center for Geophysical Forecasting University of Texas at Aus

ICPP25 Conference story: Day 1

ICPP Conference 会议 Congrats to all accepted papers! Welcome Ceremony 185 Attendee come to the conference! We have 292 submission and 78 of them are accepted! The Chairman\'s Welcoming! Jack Dongarra, &

GQA、MHA、MQA、MLA

在苏剑林博客+油管上有更好的介绍。 GQA(Grouped Query Attention,组查询注意力)是注意力机制(Attention)的一种优化变体,主要用于提高大型语言模型(LLM)的计算效率和内存使用效率,同时尽量保持模型性能。它在注意力机制中起到优化多头注意力(Multi-Head Attention, MHA)的作用,特别是在 Transformer 模型中。以下我会用简单易懂的语言

ParslFest 25 会议记录

ParslFest 会议的目标是找到新的idea和设计,以及展示一些用户案例。 Parsl: Parallel Scripting in Python Join our dedicated #parslfest2025 channel on Slackto connect with fellow attendees, ask questions, etc. Not on Parsl Slack y

ATC24 Power-aware Deep Learning Model Serving with u-Serve

Power-aware Deep Learning Model Serving with u-Serve 这篇文章是发表于2024年 USENIX ATC\'24 的论文,标题为《Power-aware Deep Learning Model Serving with μ-Serve》,作者来自伊利诺伊大学厄巴纳-香槟分校和IBM Research。论文聚焦于深度学习(DL)模型服务(即推理)中的功

OSDI25 PipeThreader

PipeThreader: Software-Defined Pipelining for Efficient DNN Execution AlpaServe 简单总结 背景问题 现在的深度学习模型越来越大,单块 GPU 内存不够用。 多模型在线服务要保证低延迟、高吞吐量,但请求量有时会突然激增,传统方法效率低。 核心想法 模型并行:把一个模型拆成几部分放到多块 GPU 上。 统计多路复用:当一个

硅谷101 清华姚班的经验分享

为什么伟大不能被计划? 【为什么伟大不能被计划?精英教育有多残酷【硅谷101播客】】 https://www.bilibili.com/video/BV1vg92YcEUD/?share_source=copy_web&vd_source=72eac555730ba7e7a64f9fa1d7f2b2d4 清华姚班 创建非常自由 人才不是培养出来的,是在把最好的人聚集起来,给他们时间+空间,足够的自

OSDI25 XSched

scheduling for XPUs 在XPU上实现抢占式调度 CPU的抢占式调度 抢占式调度(Preemptive Scheduling)是一种操作系统调度策略,核心思想是: 当有更高优先级或更紧急的任务需要运行时,操作系统可以立即中断当前正在运行的任务,把 CPU 资源“抢”过来给那个更高优先级的任务。 XPU XPU: FPGA, NPU, GPU 目前在XPU上做了很多的任务 但是好像没

CNN 的两个技术: UGC与BatchNorm

Unstructured Group Convolution 1. 普通 Group Convolution Group Convolution(分组卷积)最早是 AlexNet(2012)用来解决 GPU 显存不足问题的。 做法:把输入通道分成几个组,每个组只跟自己的卷积核组连接计算。 好处:减少计算量和参数量(比如输入 64 个通道,分成 4 组,每组只卷 16 个通道,计算量大幅下降)。 结

南科大学生系统研讨会 SUSTech Student Sys Seminar

本文大概记录我们第一次南科大系统研讨会的过程和反思。 故事背景 有一天,我想办一个南科大学生的system研究seminar。大概内容是想请几个阶段和领域的学长学姐分享自己的研究,可以是自己的工作,研究的学习历程,研究体会或者单纯的开会经历、做lab的经历。 研讨会的内容可以是不同主题的分享,比如如果有同学能分享"如何阅读CSAPP这本书”“我们的计算机安全课程project"

SIGCOMM07 How to read a paper

How to read a paper | ACM SIGCOMM Computer Communication Review 没想到真有这种神奇文章,讲怎么读文章。很好,我就用你的方法来读你的文章。 S. Keshav教授写了这篇paper分享了自己多年来阅读论文的经验——即"three-pass"方法。它的关键思想是拿到一篇paper不要直接开始从头读到尾,而是分三遍去阅读

25年7月文章 Attention on Hardware

link: SystolicAttention: Fusing FlashAttention within a Single Systolic Array 这篇文章提出了一种针对 Transformer 模型中的 FlashAttention 加速的新架构 FSA(Full Systolic Attention),旨在解决现有基于 systolic array 的加速器在执行 FlashAtten

CIDR22 MMAP = 💩

Are You Sure You Want to Use MMAP in Your Database Management System? 内存映射(mmap)文件 I/O 是操作系统提供的一种功能,可将二级存储上的文件内容映射到程序的地址空间中。然后,程序通过指针访问页面,就像文件完全位于内存中一样。只有当程序引用页面时,操作系统才会以透明的方式加载页面,并在内存填满时自动删除页面。 数十年来,