GQA、MHA、MQA、MLA

在苏剑林博客+油管上有更好的介绍。 GQA(Grouped Query Attention,组查询注意力)是注意力机制(Attention)的一种优化变体,主要用于提高大型语言模型(LLM)的计算效率和内存使用效率,同时尽量保持模型性能。它在注意力机制中起到优化多头注意力(Multi-Head Attention, MHA)的作用,特别是在 Transformer 模型中。以下我会用简单易懂的语言

CNN 的两个技术: UGC与BatchNorm

Unstructured Group Convolution 1. 普通 Group Convolution Group Convolution(分组卷积)最早是 AlexNet(2012)用来解决 GPU 显存不足问题的。 做法:把输入通道分成几个组,每个组只跟自己的卷积核组连接计算。 好处:减少计算量和参数量(比如输入 64 个通道,分成 4 组,每组只卷 16 个通道,计算量大幅下降)。 结

Pytorch Intro: Everything you want to know

Pytorch 本质是和python完全不一样的东西。然后这东西本质是拿来训练模型的,其他的事情它干的一般般的。 学习链接 官方教程 Welcome to PyTorch Tutorials — PyTorch Tutorials 2.7.0+cu126 documentation Learning PyTorch with Examples — PyTorch Tutorials 2.7.0+c

RAG、GraphRAG介绍

本文是对这两个概念的转载与学习 部署效果: RAG介绍 123 检索增强生成(RAG) 是一种结合信息检索和生成模型的技术,用于提高大语言模型(LLM)的回答准确性和深度12。 检索增强生成(Retrieval Augmented Generation,RAG)整合了从庞大知识库中检索到的相关信息,并以此为基础,指导大型语言模型生成更为精准的答案,显著提升了回答的准确性与深度。 LLM 擅长语言理

回归决策树

sci-kit learn 参考 https://scikit-learn.cn/1.6/modules/tree.html 决策树使用树(或者不雅观的说,使用几个嵌套if)来对数据进行分类。决策树的树种类不同,就造就了不同的模型,比如XGBoost,LightGBM。 在决策树算法中,分裂增益(Splitting Gain)通常指的是在选择分裂特征时,分裂某个特征对决策树模型性能的提升。这个提升