加速大模型推理:深入探究MQA、GQA、MLA(DeepSeek)、KV缓存技术 回顾:多头注意力机制 为什么LLM推理是串行的 KV缓存的挑战 2019年——多查询注意力机制(Multi Query Attention) 2023年5月——分组查询注意力机制(Grouped Query Atten