LLM on CPU 推理流程python源码解析

其他框架解析: vllm 框架解析:LLM 高速推理框架 vLLM 源代码分析 / vLLM Source Code Analysis - 知乎 vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention | vLLM Blog llama.cpp llama.cpp源码解读--推理流程总览 - 知乎 纯新手教程:用llama.cpp本地

HGEMM

赖海斌 ROI on HGEMM 矩阵参数 不同size的标准矩阵: 32 256 2048 8192 16384 32768 ...... 矩阵形式: 正常矩阵(256 X 256) 特殊形状矩阵(有边界条件) 257 2049 // ? 稀疏矩阵(不同处理方式)// ? 复杂矩阵(行列相差极大,如 M=2048, N=8, K=2048) API GEMM API void hgemm(con

SC Paper Summary 5

总链接: https://www.haibinlaiblog.top/index.php/sc-2024-passage/ Matrix Computations on Tensor Cores AmgT: Algebraic Multigrid Solver on Tensor Cores (Best Paper Finalist) Super Scientific Software Labor

SC 24 Brief Summary 4

总链接: https://www.haibinlaiblog.top/index.php/sc-2024-passage/ Parallel Program Analysis and Code Optimization MCFuser: High-performance and Rapid-fusion of Memory-bound Compute-intensive Operators Aut

PRAM, BSP, logP Model

简单介绍PRAM、BSP 和 logP 这三种并行计算模型。 学习参考链接:《高性能计算与云计算》第五讲并行算法设计 - 豆丁网Docin 1. PRAM(Parallel Random Access Machine)模型 PRAM 是一种理想化的并行计算模型,用来描述并行算法的运行方式。你可以把它想象成一个理想的并行计算机,具有无限多个处理器(CPU),这些处理器可以同时访问共享的内存。 特点:

OpenMP在llvm里是如何实现的?

基础知识:编译器的结构 编译器中的“前端”和“后端”是两个重要的组成部分,它们负责编译过程的不同阶段。我们可以将编译器看作一个“处理流水线”,前端和后端各自执行不同的任务。 前端:负责将源代码解析成抽象语法树并生成中间代码,确保代码的语法和语义正确。 词法分析、语法分析、语义分析和中间代码生成。 后端:负责优化中间代码并生成目标机器代码,最终输出可执行文件。 优化、目标代码生成、汇编、链接。 前端

Risgraph

RisGraph: A Real-Time Streaming System for Evolving Graphs to Support Sub-millisecond Per-update Analysis at Millions Ops/s low latency and high though put Batch 能解决 high thoughput , 但是很多信息消失,同时实时性不够

SC 24 Brief Summary 2

总链接: https://www.haibinlaiblog.top/index.php/sc-2024-passage/ ChatBLAS: The First AI-Generated and Portable BLAS Library 用GPT写的BLAS库 ChatBLAS: The First AI-Generated and Portable BLAS Library We prese

TLB, ASID, TTBR And Context Switching

本文是在实验课上看一些文章和GPT整理的,不完全 Linux内存管理笔记----TLB-阿里云开发者社区 面试官:不同进程对应相同的虚拟地址,在 TLB 是如何区分的?-腾讯云开发者社区-腾讯云 Linux进程管理+内存管理:进程切换的TLB处理(ASID-address space ID、PCID-process context ID)_进程的asid-CSDN博客 TLB、PCID与ASID的

SC 24 brief Summary 1

SC 24 Passage My summary and understanding of the papers presented at the SC24 conference. 总链接: https://www.haibinlaiblog.top/index.php/sc-2024-passage/ Jensen Huang NVIDIA speech 主题:NVIDIA GPU的历史、目前进