GQA、MHA、MQA、MLA
在苏剑林博客+油管上有更好的介绍。 GQA(Grouped Query Attention,组查询注意力)是注意力机制(Attention)的一种优化变体,主要用于提高大型语言模型(LLM)的计算效率和内存使用效率,同时尽量保持模型性能。它在注意力机制中起到优化多头注意力(Multi-Head Attention, MHA)的作用,特别是在 Transformer 模型中。以下我会用简单易懂的语言
- Machine Learning
- Haibin
- 2025-08-30
- 1457 Views
- 0 Comments
