宇宙
生活
随笔
大模型
RAG
强化学习
Agent
LLM架构
论文
论文速递
机器学习
多模态
基础模型
理论基础
欢迎订阅
开源
大模型
强化学习
Agent
LLM架构
论文
机器学习
多模态
基础模型
分类
标签
归档
上网导航
1
2W8000字读懂GPT全家桶:从GPT-1到O1的技术演进与突破
2
强化学习详解第八部分 RLAIF 如何实现人工智能反馈的规模化飞跃
3
DeepSeek-R1如何突破语言模型的极限——深入数学视角解读群体相对策略优化(GRPO)
4
强化学习详解第七部分 RLHF:解码 AI 与人类偏好对齐的奥秘
5
2W8000字深度剖析25种RAG变体
登录
柏企
吹灭读书灯,一身都是月
累计撰写
109
篇文章
累计创建
16
个分类
累计收获
183
个点赞
导航
宇宙
生活
随笔
大模型
RAG
强化学习
Agent
LLM架构
论文
论文速递
机器学习
多模态
基础模型
理论基础
欢迎订阅
开源
大模型
强化学习
Agent
LLM架构
论文
机器学习
多模态
基础模型
分类
标签
归档
上网导航
目录
标签
神经网络
对Transformer中位置编码的可视化理解
了解位置编码背后的数学原理和直觉 Transformer是一种深度学习架构,它利用注意力机制来学习数据元素之间的关系。它由一个编码器和一个解码器组成,与传统的循环神经网络(RNN)或卷积神经网络(CNN)不同,它可以并行处理输入序列,而不依赖于顺序处理。Transformer模型的一个重要组成部分是
2025-07-09 19:07
1
0
0
24.1℃
LLM架构
从Softmax到Flash Attention的关键优化
2017年,《Attention is All You Need》一文发表,向世界展示了Transformer模型可以依靠注意力(Attention)层取得优异的性能。八年后,我们见证了这些模型借助注意力的力量通过了图灵测试以及其他更多成就。尽管注意力非常强大,但它也有一定的代价。随着输入变长,计算
2025-07-09 19:03
2
0
1
26.2℃
LLM架构
从线性到非线性:感知器如何诞生深度学习
从线性到非线性:感知器如何诞生深度学习 更多专栏文章点击查看: LLM 架构专栏
2025-05-22 21:53
36
0
1
29.6℃
LLM架构
理论基础
神经网络系列:源起
神经网络系列:源起 更多专栏文章点击查看: LLM 架构专栏
2025-05-11 11:32
62
0
2
34.2℃
理论基础
牛津大学提出 NoProp : 不再需要反向传播来训练神经网络
深入研究 “NoProp” 算法,无需前向传递和反向传播来训练神经网络,并从头开始学习编码。 论文 NoProp: Training Neural Networks without Back-propagation or Forward-propagation 您不再需要反向传播来训练神经网络 反向
2025-04-26 15:05
34
0
0
27.4℃
基础模型
神经网络本质不过是初中生都会的复合函数?
2025-04-08 13:17
33
0
2
31.3℃
理论基础
弹