掌握Torchtune：高效微调、评估和部署大型语言模型的实用指南

LLM架构

掌握Torchtune：高效微调、评估和部署大型语言模型的实用指南

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企阅文】

微调大型语言模型（LLM）对于让预训练模型适配特定任务至关重要，但这一过程可能复杂且资源消耗大。Torchtune通过提供模块化配方和配置简化了这一流程，使用户能够高效地微调、评估和部署LLM。本指南将介绍使用Torchtune微调Llama3.2模型的端到端工作流程，其中涵盖了低秩适应（LoRA）和量化感知训练（QAT）等先进技术。

你将获得的关键见解

理解Torchtune提供的各种微调配方
探索微调大型语言模型的分步工作流程
学习如何高效地评估、量化和部署模型
了解与Hugging Face和EleutherAI等工具的集成

准备工作

在开始微调之前，请确保你已完成以下操作：

安装Torchtune（pip install torchtune）
熟悉YAML配置和检查点等概念
能够访问Hugging Face Hub上的预训练模型

下载预训练模型

Torchtune与Hugging Face Hub集成，使得下载预训练模型变得轻而易举。在本教程中，我们将使用Llama3.2 3B Instruct模型。

为什么选择Hugging Face？Hugging Face Hub是获取最新模型权重和配置的首选平台。借助Torchtune的无缝集成，你只需几条命令即可开始！使用以下命令下载模型：

$ tune download meta-llama/Llama-3.2-3B-Instruct --ignore-patterns "original/consolidated.00.pth"

这条命令会下载所需的模型权重和配置文件。下载后的文件目录如下：

/tmp/Llama-3.2-3B-Instruct/
├── config.json
├── generation_config.json
├── model-00001-of-00002.safetensors
...

使用LoRA进行微调

LoRA（低秩适应）是一种参数高效的微调技术，它冻结基础LLM，并添加少量可学习参数。这种方法显著减少了内存使用，使得在消费级GPU上微调大型模型成为可能。

为什么使用LoRA？传统的微调需要更新所有模型参数，这可能成本高昂且资源密集。LoRA通过引入少量高效的更新，同时保持核心模型不变，减轻了这一负担。

LoRA的原理是在冻结基础模型的同时，添加极小比例的可学习参数，从而降低与梯度和优化器状态相关的内存占用。这使得在GPU内存有限的硬件（例如，显存约为16GB的RTX 3090/4090）上进行微调成为可能。

选择合适的配方

使用tune ls命令列出可用的配方：

$ tune ls

运行微调过程

使用以下命令运行微调：

$ tune run lora_finetune_single_device

该命令将使用批量大小为4和bfloat16精度对模型进行微调，此过程大约需要16GB的GPU内存。

示例输出：

Setting manual seed to local seed 3977464327.
Memory stats after model init:
GPU peak memory allocation: 6.21 GiB

在微调过程中，Torchtune会记录各种指标，如损失和内存使用情况。你可以在输出目录的日志中查看详细信息。

检查点和输出文件

微调完成后，了解Torchtune生成的输出文件至关重要。

为什么检查点很重要？在任何机器学习项目中，能够暂停、恢复和跟踪进度都至关重要。Torchtune的内置检查点系统可确保你不会丢失进度。

输出目录结构如下：

/tmp/torchtune/llama3_2_3B/lora_single_device
├── epoch_0
│   ├── adapter_config.json
│   ├── adapter_model.pt
│   ├── adapter_model.safetensors
│   ├── config.json
│   └── tokenizer.json
├── logs
└── recipe_state

关键文件说明：

adapter_model.safetensors和adapter_model.pt：LoRA训练的适配器权重。
ft-model-*.safetensors：完整的模型权重（如果save_adapter_weights_only=False）。
adapter_config.json：供Hugging Face的PEFT库加载适配器使用。
logs/：包含损失、内存使用情况和其他训练指标的日志。
recipe_state.pt：包含从上次检查点恢复训练所需的信息。

评估微调后的模型

评估对于确定微调后的模型在特定任务上的表现至关重要。Torchtune与EleutherAI的Eval Harness集成，这是一个用于结构化评估的流行框架。

为什么要进行评估？没有验证的微调是不完整的。评估步骤有助于确保你的模型在实际任务中的表现符合预期。

使用EleutherAI的Eval Harness运行评估

首先，安装评估工具：

$ pip install lm_eval>=0.4.5

然后，复制评估配置：

$ tune cp eleuther_evaluation ./custom_eval_config.yaml

更新配置，使其指向微调后的检查点：

output_dir: /tmp/torchtune/llama3_2_3B/lora_single_device/epoch_0
model:
  _component_: torchtune.models.llama3_2.llama3_2_3b

运行评估：

$ tune run eleuther_eval --config ./custom_eval_config.yaml

从模型生成输出

评估模型后，测试其生成有意义文本的能力。

为什么要生成输出？观察模型的实际运行情况是了解其能力和局限性的最佳方式。

Torchtune相较于传统微调机制的优势

内存效率高：借助LoRA和QLoRA等技术，Torchtune允许在显存仅为16GB的消费级GPU（例如RTX 3090/4090）上进行微调。
模块化配方：Torchtune基于配方的方法使得定制微调、评估和量化工作流程变得轻松。
与流行工具集成：与Hugging Face、EleutherAI的Eval Harness以及用于量化的TorchAO实现无缝集成。
可扩展的工作流程：支持单设备和分布式微调，可适应各种硬件设置。

常见问题排查

即使是最好的工作流程也可能遇到问题。以下是用户常见的问题及解决方案：

内存错误：问题表现为“CUDA out of memory”错误。解决方案是减小批量大小、启用激活检查点或使用LoRA以提高内存效率。
训练缓慢：训练时间比预期长。可以使用bfloat16精度、优化数据集管道或在多个GPU上分布式训练来解决。
模型加载问题：加载微调后的模型时出错。确保所有必要文件（例如adapter_config.json、adapter_model.safetensors）都在正确的目录中。

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企阅文】

如果觉得文章对你有用，请随意赞赏

LLM架构

掌握Torchtune：高效微调、评估和部署大型语言模型的实用指南

https://www.chenbaiqi.com/archives/%E6%8E%8C%E6%8F%A1Torchtune%EF%BC%9A%E9%AB%98%E6%95%88%E5%BE%AE%E8%B0%83%E3%80%81%E8%AF%84%E4%BC%B0%E5%92%8C%E9%83%A8%E7%BD%B2%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%AE%9E%E7%94%A8%E6%8C%87%E5%8D%97

作者

柏企

发布于

2025-04-13

更新于

2025-04-13

许可协议

CC BY 4.0

掌握Torchtune：高效微调、评估和部署大型语言模型的实用指南

掌握Torchtune：高效微调、评估和部署大型语言模型的实用指南

你将获得的关键见解

准备工作

下载预训练模型

使用LoRA进行微调

选择合适的配方

运行微调过程

检查点和输出文件

评估微调后的模型

使用EleutherAI的Eval Harness运行评估

从模型生成输出

Torchtune相较于传统微调机制的优势

常见问题排查

作者

发布于

更新于

许可协议

评论