第二支羽毛

加速大模型推理：深入探究MQA、GQA、MLA（DeepSeek）、KV缓存技术

加速大模型推理：深入探究MQA、GQA、MLA（DeepSeek）、KV缓存技术回顾：多头注意力机制为什么LLM推理是串行的 KV缓存的挑战 2019年——多查询注意力机制（Multi Query Attention） 2023年5月——分组查询注意力机制（Grouped Query Atten

LLM架构