第二支羽毛

标签
神经网络

对Transformer中位置编码的可视化理解

了解位置编码背后的数学原理和直觉 Transformer是一种深度学习架构，它利用注意力机制来学习数据元素之间的关系。它由一个编码器和一个解码器组成，与传统的循环神经网络（RNN）或卷积神经网络（CNN）不同，它可以并行处理输入序列，而不依赖于顺序处理。Transformer模型的一个重要组成部分是

LLM架构

从Softmax到Flash Attention的关键优化

2017年，《Attention is All You Need》一文发表，向世界展示了Transformer模型可以依靠注意力（Attention）层取得优异的性能。八年后，我们见证了这些模型借助注意力的力量通过了图灵测试以及其他更多成就。尽管注意力非常强大，但它也有一定的代价。随着输入变长，计算

LLM架构