• 最新文章
  • 计算机科学
  • 读书笔记
  • CPP
  • OS
  • 图论
  • 交叉学科
  • 大数据

LLM on CPU 推理流程python源码解析

其他框架解析: vllm 框架解析:LLM 高速推理框架 vLLM 源代码分析 / vLLM Source Code Analysis - 知乎 vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention | vLLM Blog llama.cpp llama.cpp源码解读--推理流程总览 - 知乎 纯新手教程:用llama.cpp本地

Worst-Case Optimal Join

最坏情况下最优连接(Worst-Case Optimal Joins) - 知乎 _Amine Mhedhbi and Semih Salihoglu. 2019. Optimizing subgraph queries by combining binary and worst-case optimal joins. Proc. VLDB Endow. 12, 11 (July 2019), 1

HGEMM

赖海斌 ROI on HGEMM 矩阵参数 不同size的标准矩阵: 32 256 2048 8192 16384 32768 ...... 矩阵形式: 正常矩阵(256 X 256) 特殊形状矩阵(有边界条件) 257 2049 // ? 稀疏矩阵(不同处理方式)// ? 复杂矩阵(行列相差极大,如 M=2048, N=8, K=2048) API GEMM API void hgemm(con

LLM Pytorch Profiling on CPU

This passage is for my own profile for LLM meta-llama/Llama-3.2-1B We do an indepth analysis for LLM using pytorch profiler and Intel Vtune life is short, but it’s long enough to be foolish import tor

SC 2024 文章简介及相关解读

为了寻找下一阶段的工作,同时思考我未来要做什么,我就将 SC 24大概90 篇文章都读了一遍. 这个栏目是我为了学习HPC而创建,我的解读目的在于了解以下问题: 研究的问题 HPC方向,大家都关注什么? 有哪些方向? 大家都在做什么? 常见的优化手段有什么? 做的工作需要哪些背景? 需要数学, 材料, 计算中心, 企业应用, 科学计算程序的相关经验? 文章的知识背景有哪些? 问题是从哪里来的? 工

SC Paper Summary 5

总链接: https://www.haibinlaiblog.top/index.php/sc-2024-passage/ Matrix Computations on Tensor Cores AmgT: Algebraic Multigrid Solver on Tensor Cores (Best Paper Finalist) Super Scientific Software Labor

SC 24 Brief Summary 4

总链接: https://www.haibinlaiblog.top/index.php/sc-2024-passage/ Parallel Program Analysis and Code Optimization MCFuser: High-performance and Rapid-fusion of Memory-bound Compute-intensive Operators Aut

SC Paper Reading 3

总链接: https://www.haibinlaiblog.top/index.php/sc-2024-passage/ Paper Computational Efficiency and Learning Techniques Murali Emani B311 AcceleratorsApplications and Application FrameworksArtificial Int

PRAM, BSP, logP Model

简单介绍PRAM、BSP 和 logP 这三种并行计算模型。 学习参考链接:《高性能计算与云计算》第五讲并行算法设计 - 豆丁网Docin 1. PRAM(Parallel Random Access Machine)模型 PRAM 是一种理想化的并行计算模型,用来描述并行算法的运行方式。你可以把它想象成一个理想的并行计算机,具有无限多个处理器(CPU),这些处理器可以同时访问共享的内存。 特点:

RAG、GraphRAG介绍

本文是对这两个概念的转载与学习 部署效果: RAG介绍 123 检索增强生成(RAG) 是一种结合信息检索和生成模型的技术,用于提高大语言模型(LLM)的回答准确性和深度12。 检索增强生成(Retrieval Augmented Generation,RAG)整合了从庞大知识库中检索到的相关信息,并以此为基础,指导大型语言模型生成更为精准的答案,显著提升了回答的准确性与深度。 LLM 擅长语言理

OpenMP在llvm里是如何实现的?

基础知识:编译器的结构 编译器中的“前端”和“后端”是两个重要的组成部分,它们负责编译过程的不同阶段。我们可以将编译器看作一个“处理流水线”,前端和后端各自执行不同的任务。 前端:负责将源代码解析成抽象语法树并生成中间代码,确保代码的语法和语义正确。 词法分析、语法分析、语义分析和中间代码生成。 后端:负责优化中间代码并生成目标机器代码,最终输出可执行文件。 优化、目标代码生成、汇编、链接。 前端

新的哈希结构:漏斗哈希

本科生推翻姚期智40年前的猜想,提出全新哈希表算法突破搜索效率极限 https://news.qq.com/rain/a/20250211A04F8H00 我们可以看看它的文章:https://arxiv.org/pdf/2501.02305 这篇文章提出了一个漏斗哈希,在第三节 Funnel Hashing 原本的哈希表经过哈希函数后随机探测位置,找到位置就把数值分配。而它的漏斗哈希会把数组分为

回归决策树

sci-kit learn 参考 https://scikit-learn.cn/1.6/modules/tree.html 决策树使用树(或者不雅观的说,使用几个嵌套if)来对数据进行分类。决策树的树种类不同,就造就了不同的模型,比如XGBoost,LightGBM。 在决策树算法中,分裂增益(Splitting Gain)通常指的是在选择分裂特征时,分裂某个特征对决策树模型性能的提升。这个提升

数据流挖掘

https://dm-trans.github.io/DM-trans/12/ “教育不是学习,信息,数据,事实,技能或能力的堆砌,这是培训或教学。教育是让隐藏的种子变得可见。” - Thomas More 介绍 硬件技术的进步已经衍生出以比以前更快的速度收集数据的新方法。 例如,许多日常生活交易(例如使用信用卡或电话)导致自动收集数据。 同样,收集数据的新方法(例如可穿戴式传感器和移动设备)也增

转载:glibc malloc的底层原理

原作者: https://sploitfun.wordpress.com/2015/02/10/understanding-glibc-malloc/comment-page-1/?blogsub=confirming#subscribe-blog%E3%80%82 中文翻译原作: https://blog.csdn.net/maokelong95/article/details/51989081

读书:分布式计算、云计算与大数据

图书馆里尻来的老书,总的来说,给小朋友介绍挺不错的。但是可惜太学院派,缺少真实实战。 云计算的基础 定义/概念: 并行计算、网络计算、对等计算、集群计算、网格计算、云计算、边缘计算、移动边缘计算、大数据 分布式计算依赖于多个计算节点共同协作来处理任务。其不同于C/S架构,还要多节点要协同通信。 主要应用: GIMPS梅森素数 SETI@Home Amazon / 互联网 主要挑战: 多点故障 安全