宇宙
生活
随笔
大模型
RAG
强化学习
Agent
LLM架构
论文
论文速递
机器学习
多模态
基础模型
理论基础
欢迎订阅
开源
大模型
强化学习
Agent
LLM架构
论文
机器学习
多模态
基础模型
分类
标签
归档
上网导航
1
2W8000字读懂GPT全家桶:从GPT-1到O1的技术演进与突破
2
强化学习详解第八部分 RLAIF 如何实现人工智能反馈的规模化飞跃
3
DeepSeek-R1如何突破语言模型的极限——深入数学视角解读群体相对策略优化(GRPO)
4
强化学习详解第七部分 RLHF:解码 AI 与人类偏好对齐的奥秘
5
2W8000字深度剖析25种RAG变体
登录
柏企
吹灭读书灯,一身都是月
累计撰写
109
篇文章
累计创建
16
个分类
累计收获
183
个点赞
导航
宇宙
生活
随笔
大模型
RAG
强化学习
Agent
LLM架构
论文
论文速递
机器学习
多模态
基础模型
理论基础
欢迎订阅
开源
大模型
强化学习
Agent
LLM架构
论文
机器学习
多模态
基础模型
分类
标签
归档
上网导航
目录
分类
LLM架构
置顶
2W8000字读懂GPT全家桶:从GPT-1到O1的技术演进与突破
2025-03-25
对Transformer中位置编码的可视化理解
了解位置编码背后的数学原理和直觉 Transformer是一种深度学习架构,它利用注意力机制来学习数据元素之间的关系。它由一个编码器和一个解码器组成,与传统的循环神经网络(RNN)或卷积神经网络(CNN)不同,它可以并行处理输入序列,而不依赖于顺序处理。Transformer模型的一个重要组成部分是
2025-07-09 19:07
1
0
0
24.1℃
LLM架构
从Softmax到Flash Attention的关键优化
2017年,《Attention is All You Need》一文发表,向世界展示了Transformer模型可以依靠注意力(Attention)层取得优异的性能。八年后,我们见证了这些模型借助注意力的力量通过了图灵测试以及其他更多成就。尽管注意力非常强大,但它也有一定的代价。随着输入变长,计算
2025-07-09 19:03
2
0
1
26.2℃
LLM架构
从线性到非线性:感知器如何诞生深度学习
从线性到非线性:感知器如何诞生深度学习 更多专栏文章点击查看: LLM 架构专栏
2025-05-22 21:53
36
0
1
29.6℃
LLM架构
理论基础
LangGraph 多智能体群:使用 LangGraph 创建群风格多智能体系统的 Python 库
LangGraph 多智能体群是一个 Python 库,旨在将多个 AI 智能体编排成一个有凝聚力的 “群”。它建立在 LangGraph 之上,LangGraph 是一个用于构建健壮、有状态智能体工作流的框架,以实现一种特殊形式的多智能体架构。在一个群中,具有不同专业的智能体根据任务的需要动态地将
2025-05-20 12:24
46
0
2
32.6℃
LLM架构
掌握Torchtune:高效微调、评估和部署大型语言模型的实用指南
2025-04-13 21:36
38
0
1
29.8℃
LLM架构
掌握Torchtune:高效微调、评估和部署大型语言模型的实用指南 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏 知乎LLM专栏
LLM架构系列 ---探索文本嵌入模型:从基础到BERT与SBERT实战
本文1W字,探讨了各种用于生成文本向量表示的嵌入模型,包括词袋模型(BoW)、TF-IDF、Word2Vec、GloVe、FastText、ELMO、BERT等等。深入研究了BERT的架构和预训练,介绍了用于高效生成句子嵌入的句子BERT(SBERT),并提供了一个使用sentence-transf
2025-04-13 18:36
24
0
0
26.4℃
LLM架构
2W6000字 大模型核心技术综述:微调、推理与优化指南
本文2W6000字,10篇参考文献,内容涵盖了语言建模、预训练面临的挑战、量化技术、分布式训练方法,以及大语言模型的微调。此外,还讨论了参数高效微调(PEFT)技术,包括适配器、LoRA和QLoRA;介绍了提示策略、模型压缩方法(如剪枝和量化),以及各种量化技术(GPTQ、NF4、GGML)。最后,
2025-04-13 12:41
20
0
0
26.0℃
LLM架构
一文读懂大语言模型评估:方法、指标与框架全解析
大模型评估全解析:方法、指标与框架 🕙发布时间:2025-02-24 本文3W4000字,分了8个小节介绍大模型评估方法,后续会把最新的方法更新进来~,有些内容是翻译自HuggingFace和一些论文,更多LLM架构文章:
2025-04-13 12:33
17
0
0
25.7℃
LLM架构
3W6000字了解大模型LLM:部署、优化与框架
3W6000字了解大模型LLM:部署、优化与框架 🕙发布时间:2025-02-20 本文3W6000字,分了11个小结介绍各种框架和方法,后续会把最新的方法更新进来~,有些内容是翻译自HuggingFace和一些论文 近日热文: 1. 全网最全的神经网络数学原理(代码和公式)直观解释 2. 大模型
2025-04-13 12:13
46
0
4
36.6℃
LLM架构
上一页
下一页
1
2
3
4
5
弹