置顶

2W8000字读懂GPT全家桶:从GPT-1到O1的技术演进与突破

2025-03-25

对Transformer中位置编码的可视化理解

了解位置编码背后的数学原理和直觉 Transformer是一种深度学习架构,它利用注意力机制来学习数据元素之间的关系。它由一个编码器和一个解码器组成,与传统的循环神经网络(RNN)或卷积神经网络(CNN)不同,它可以并行处理输入序列,而不依赖于顺序处理。Transformer模型的一个重要组成部分是

从Softmax到Flash Attention的关键优化

2017年,《Attention is All You Need》一文发表,向世界展示了Transformer模型可以依靠注意力(Attention)层取得优异的性能。八年后,我们见证了这些模型借助注意力的力量通过了图灵测试以及其他更多成就。尽管注意力非常强大,但它也有一定的代价。随着输入变长,计算

从线性到非线性:感知器如何诞生深度学习

从线性到非线性:感知器如何诞生深度学习 更多专栏文章点击查看: LLM 架构专栏

LangGraph 多智能体群:使用 LangGraph 创建群风格多智能体系统的 Python 库

LangGraph 多智能体群是一个 Python 库,旨在将多个 AI 智能体编排成一个有凝聚力的 “群”。它建立在 LangGraph 之上,LangGraph 是一个用于构建健壮、有状态智能体工作流的框架,以实现一种特殊形式的多智能体架构。在一个群中,具有不同专业的智能体根据任务的需要动态地将

掌握Torchtune:高效微调、评估和部署大型语言模型的实用指南


掌握Torchtune:高效微调、评估和部署大型语言模型的实用指南 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏 知乎LLM专栏

LLM架构系列 ---探索文本嵌入模型:从基础到BERT与SBERT实战

本文1W字,探讨了各种用于生成文本向量表示的嵌入模型,包括词袋模型(BoW)、TF-IDF、Word2Vec、GloVe、FastText、ELMO、BERT等等。深入研究了BERT的架构和预训练,介绍了用于高效生成句子嵌入的句子BERT(SBERT),并提供了一个使用sentence-transf

2W6000字 大模型核心技术综述:微调、推理与优化指南

本文2W6000字,10篇参考文献,内容涵盖了语言建模、预训练面临的挑战、量化技术、分布式训练方法,以及大语言模型的微调。此外,还讨论了参数高效微调(PEFT)技术,包括适配器、LoRA和QLoRA;介绍了提示策略、模型压缩方法(如剪枝和量化),以及各种量化技术(GPTQ、NF4、GGML)。最后,

一文读懂大语言模型评估:方法、指标与框架全解析

大模型评估全解析:方法、指标与框架 🕙发布时间:2025-02-24 本文3W4000字,分了8个小节介绍大模型评估方法,后续会把最新的方法更新进来~,有些内容是翻译自HuggingFace和一些论文,更多LLM架构文章:

3W6000字了解大模型LLM:部署、优化与框架

3W6000字了解大模型LLM:部署、优化与框架 🕙发布时间:2025-02-20 本文3W6000字,分了11个小结介绍各种框架和方法,后续会把最新的方法更新进来~,有些内容是翻译自HuggingFace和一些论文 近日热文: 1. 全网最全的神经网络数学原理(代码和公式)直观解释 2. 大模型