PyTorch 学习笔记 (11): Transformer 模型
Transformer 是现代 NLP 的基石。本文介绍 Transformer 的核心组件:位置编码、多头注意力、编码器-解码器结构,并实现完整的序列到序列模型。
const introduction = {
role: "developer",
passion: "building things",
coffee: true,
};
Welcome to my corner of the internet. I write about code, systems, and the craft of software engineering.
Transformer 是现代 NLP 的基石。本文介绍 Transformer 的核心组件:位置编码、多头注意力、编码器-解码器结构,并实现完整的序列到序列模型。
注意力机制让模型学会关注重点,动态地为输入的不同部分分配不同的权重。本文介绍 Additive Attention、Self-Attention、Multi-Head Attention 等核心概念。
模型保存、加载和推理是深度学习项目中的必备技能。本文介绍多种保存/加载方法、checkpoint 使用、以及模型推理的最佳实践。
序列数据在深度学习中非常常见。本文介绍 RNN 和 LSTM 的工作原理,并实现时间序列预测任务。
过拟合是深度学习中的常见问题。本文介绍 Dropout、Batch Normalization、Weight Decay 等正则化方法,帮助你训练出泛化能力更强的模型。
MNIST 是深度学习的 Hello World!本文介绍 CNN 的核心概念:卷积层、池化层、全连接层,并实现完整的图像分类流程。
多层神经网络(MLP)是深度学习的基础。本文解释为什么需要非线性激活函数、如何构建多层网络,并使用 MLP 解决经典的 XOR 问题和复杂的螺旋分类问题。
逻辑回归用于二分类问题,通过 Sigmoid 函数将输出映射到 (0,1) 区间表示概率。本文介绍 Sigmoid 函数、交叉熵损失和二分类任务的实现。
线性回归是最简单的机器学习模型,用于预测连续值。本文从手动实现到使用 nn.Module,带你理解机器学习的基本流程和训练循环五步法。
Tensor(张量)是 PyTorch 的核心数据结构,可以理解为多维数组,支持 GPU 加速和自动求导。本文介绍 Tensor 的创建、运算、索引和形状操作。
自动求导是 PyTorch 最重要的特性之一,它让神经网络的训练变得简单。本文将深入理解 requires_grad、backward() 和计算图的概念。
本文介绍基于 Kubernetes 的 GPU 虚拟化实践方案,通过 KubeSphere 和 NVIDIA GPU Operator 实现 GPU 资源的高效利用。
Static sites are fast, secure, and simple. In this post, I explore why they might be the perfect choice for your next project.
Save time and boost your productivity with these essential bash aliases that every developer should know.
TypeScript has fundamentally changed how I write JavaScript. Let me explain why it's become an essential part of my development workflow.