大模型最新面试题系列：深度学习基础（一）

1. 反向传播中梯度消失的本质原因是什么？如何量化梯度消失的程度？

本质原因

在神经网络的反向传播过程中，梯度是通过链式法则来计算的。假设一个简单的多层神经网络，每一层的输出 $y_i$ 是由前一层的输出 $x_i$ 经过线性变换 $z_i = W_ix_i + b_i$ 再通过激活函数 $y_i = f(z_i)$ 得到的。在反向传播时，计算关于某一层权重 $W_i$ 的梯度 $\frac{\partial L}{\partial W_i}$ ，根据链式法则，它会涉及到多个导数的乘积。

当使用一些传统的激活函数，如Sigmoid函数 $\sigma(x)=\frac{1}{1 + e^{-x}}$ 或Tanh函数 $\tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$ 时，这些函数的导数在大部分输入区域的值都比较小。Sigmoid函数的导数 $\sigma'(x)=\sigma(x)(1 - \sigma(x))$ ，其最大值为 0.25，当输入值非常大或非常小时，导数趋近于 0。Tanh函数的导数 $tanh'(x)=1-\tanh^{2}(x)$ ，其最大值为 1，但在饱和区域导数也会趋近于 0。

随着网络层数的增加，梯度在反向传播过程中需要不断地乘以这些较小的导数，导致梯度值越来越小，最终趋近于 0，这就是梯度消失的本质原因。

量化梯度消失的程度

梯度范数：计算每一层参数的梯度的范数（通常使用L2范数）。在训练过程中，观察不同层的梯度范数随训练迭代的变化情况。如果某一层的梯度范数随着训练的进行迅速减小，甚至趋近于 0，就说明该层可能存在梯度消失问题。可以计算相邻层梯度范数的比值，若比值远小于 1，则表明梯度在这两层之间衰减严重。
梯度的指数衰减率：假设在第 $l$ 层和第 $l + n$ 层的梯度分别为 $g_l$ 和 $g_{l + n}$ ，可以通过计算 $\frac{\|g_{l + n}\|}{\|g_l\|}$ 来衡量梯度在 $n$ 层之间的衰减程度。如果这个比值呈现指数级下降，就说明存在梯度消失问题。
可视化梯度：使用可视化工具（如TensorBoard）绘制梯度的直方图或折线图，直观地观察梯度的分布和变化趋势。如果梯度的分布集中在接近 0 的区域，且随着训练的进行分布范围越来越窄，就可能存在梯度消失问题。

2. 推导ReLU激活函数的反向传播公式，说明其在深层网络中的优势与局限

反向传播公式推导

ReLU（Rectified Linear Unit）激活函数的定义为 $f(x)=\max(0,x)$ 。

设前向传播时，第 $l$ 层的输入为 $z^l$ ，经过ReLU激活函数后的输出为 $a^l = f(z^l)$ ，损失函数为 $L$ 。根据链式法则，计算关于 $z^l$ 的梯度 $\frac{\partial L}{\partial z^l}$ 。

对于 $x > 0$ ， $f^{'} (x) = 1$ ；对于 $x\leq0$ ， $f^{'} (x) = 0$ 。所以 $\frac{\partial L}{\partial z^l}=\frac{\partial L}{\partial a^l}\cdot\frac{\partial a^l}{\partial z^l}$ ，其中 $\frac{\partial a^l}{\partial z^l}$ 是ReLU函数的导数。

当 $z^l>0$ 时， $\frac{\partial a^l}{\partial z^l}=1$ ，则 $\frac{\partial L}{\partial z^l}=\frac{\partial L}{\partial a^l}$ ；当 $z^l\leq0$ 时， $\frac{\partial a^l}{\partial z^l}=0$ ，则 $\frac{\partial L}{\partial z^l}=0$ 。

优势

缓解梯度消失问题：由于ReLU函数在正区间的导数恒为 1，在反向传播过程中，梯度不会像Sigmoid或Tanh函数那样因为多次相乘而不断衰减，从而有效地缓解了梯度消失问题，使得深层网络的训练更加容易。
计算效率高：ReLU函数的计算非常简单，只需要判断输入是否大于 0，不需要进行复杂的指数运算，如Sigmoid或Tanh函数那样，因此可以显著提高计算速度。
稀疏性：ReLU函数会使一部分神经元的输出为 0，这就导致网络具有稀疏性。稀疏的网络可以减少参数之间的依赖，降低过拟合的风险，同时也有助于提高模型的泛化能力。

局限

神经元死亡问题：如果一个神经元的输入始终为负数，那么它的输出将始终为 0，在反向传播时，该神经元的梯度也为 0，导致该神经元无法再被更新，即“死亡”。这种情况可能会在学习率设置过大或初始权重不合适时发生。
输出非零中心化：ReLU函数的输出始终为非负数，这会导致神经元的输入在后续层中也为非负数，使得权重更新时可能会出现梯度的单向变化，影响训练的效率和稳定性。

3. Swish激活函数相比ReLU有哪些改进？为什么在某些场景下性能更优？

改进

Swish激活函数的定义为 $f(x)=x\cdot\sigma(\beta x)$ ，其中 $\sigma(x)=\frac{1}{1 + e^{-x}}$ 是Sigmoid函数， $\beta$ 是一个可学习的参数或固定的超参数。

平滑性：与ReLU函数在 $x = 0$ 处不可导不同，Swish函数是处处可导的，这使得它在优化过程中更加平滑，能够更好地利用梯度信息进行参数更新。
非单调性：Swish函数在负区间不是完全为 0，而是有一个小的负输出，这使得它能够捕捉到输入的负信息，而ReLU函数在负区间直接将输入置为 0，丢失了这部分信息。
自门控机制：Swish函数可以看作是一种自门控机制，其中 $x$ 是输入信号， $\sigma(\beta x)$ 是门控信号，它可以根据输入的大小动态地调整输出的幅度。

性能更优的场景

深层网络：在深层神经网络中，Swish函数的平滑性和非单调性可以帮助缓解梯度消失和梯度爆炸问题，使得网络能够更好地学习到复杂的特征表示。例如，在一些图像分类和自然语言处理任务中，深层网络使用Swish激活函数可以取得更好的性能。
需要捕捉负信息的任务：对于一些需要捕捉输入负信息的任务，如语音识别、时间序列预测等，Swish函数能够利用负区间的信息，从而提高模型的性能。而ReLU函数由于在负区间的输出为 0，会丢失这部分重要信息。
小数据集：在小数据集上，Swish函数的自门控机制可以帮助模型更好地适应数据的分布，减少过拟合的风险。因为它可以根据输入的情况动态地调整神经元的激活程度，使得模型更加灵活。

4. 对比BatchNorm与LayerNorm的适用场景，推导BatchNorm的归一化公式

适用场景对比

BatchNorm（批量归一化）：适用于输入数据具有明确的批量结构，且批量数据的统计特性相对稳定的场景，如计算机视觉中的图像分类任务。在图像数据中，同一批量的图像通常具有相似的统计分布（如均值和方差），BatchNorm可以利用这种批量统计信息来加速网络的训练。但是，BatchNorm在处理变长序列数据（如自然语言处理中的文本序列）时存在局限性，因为不同序列的长度不同，难以计算统一的批量统计信息。
LayerNorm（层归一化）：适用于处理变长序列数据，如自然语言处理中的循环神经网络（RNN）、长短时记忆网络（LSTM）和Transformer等。LayerNorm是对每一个样本的特征维度进行归一化，不依赖于批量数据的统计信息，因此可以很好地处理变长序列。同时，在一些生成模型中，LayerNorm也被广泛使用，因为它可以在生成过程中保持模型的稳定性。

BatchNorm归一化公式推导

假设输入数据为 $[x_1,x_2,\cdots,x_m]$ ，其中 $m$ 是批量大小。对于每一个特征维度 $j$ ，我们要对该维度上的所有样本进行归一化。

计算批量均值 $\mu_j$ ：
$\mu_j=\frac{1}{m}\sum_{i = 1}^{m}x_{ij}$
计算批量方差 $\sigma_j^2$ ：
$\sigma_j^2=\frac{1}{m}\sum_{i = 1}^{m}(x_{ij}-\mu_j)^2$
进行归一化操作，得到归一化后的输入 $\hat{x}_{ij}$ ：
$\hat{x}_{ij}=\frac{x_{ij}-\mu_j}{\sqrt{\sigma_j^2+\epsilon}}$
其中 $\epsilon$ 是一个很小的正数，用于防止分母为 0。
为了让网络具有更多的表达能力，引入可学习的参数 $\gamma_j$ 和 $\beta_j$ ，对归一化后的输入进行缩放和平移：
$y_{ij}=\gamma_j\hat{x}_{ij}+\beta_j$

5. 解释Dropout的正则化原理，说明其在训练和推理阶段的不同行为

正则化原理

Dropout是一种简单而有效的正则化方法，其核心思想是在训练过程中随机地“丢弃”（将神经元的输出置为 0）一部分神经元。具体来说，对于每一个神经元，以概率 $p$ 将其输出置为 0，以概率 $1 - p$ 保留其原始输出。

Dropout的正则化原理主要基于以下几点：

模拟集成学习：每次训练时，Dropout会随机选择不同的神经元组合，相当于从原始网络中采样出不同的子网络进行训练。这些子网络可以看作是独立的模型，最终的网络可以看作是这些子网络的集成。集成学习可以降低模型的方差，提高模型的泛化能力。
减少神经元之间的协同适应：在没有Dropout的情况下，神经元之间可能会形成过于复杂的协同适应关系，即某些神经元依赖于其他神经元的输出。Dropout通过随机丢弃神经元，迫使每个神经元都能够独立地学习到有用的特征，减少了神经元之间的依赖，从而降低了过拟合的风险。

训练和推理阶段的不同行为

训练阶段：在训练过程中，对于每一个神经元，根据预先设定的概率 $p$ 进行随机丢弃。假设某个神经元的输出为 $x$ ，在训练时，以概率 $p$ 将其输出置为 0，以概率 $1 - p$ 保留其原始输出。为了保证在训练和推理阶段神经元的输出期望一致，在训练时，对于保留的神经元，其输出会乘以 $\frac{1}{1 - p}$ 进行缩放。例如，若 $p = 0.5$ ，则保留的神经元的输出会乘以 2。
推理阶段：在推理阶段，不再进行随机丢弃操作，所有的神经元都被保留。为了与训练阶段的输出期望一致，在推理时，每个神经元的输出会乘以 $1 - p$ 。实际上，为了简化计算，通常在训练时不进行缩放操作，而是在推理时将所有神经元的权重乘以 $1 - p$ 。

6. 推导L1正则化与L2正则化对权重矩阵的更新差异

损失函数定义

假设原始的损失函数为 $L(\theta)$ ，其中 $\theta$ 是模型的参数（权重矩阵）。

L1正则化：在原始损失函数的基础上加上L1范数正则化项，得到新的损失函数 $L_{L1}(\theta)=L(\theta)+\lambda\|\theta\|_1$ ，其中 $\lambda$ 是正则化系数， $\|\theta\|_1=\sum_{i}|\theta_i|$ 是参数的L1范数。
L2正则化：在原始损失函数的基础上加上L2范数正则化项，得到新的损失函数 $L_{L2}(\theta)=L(\theta)+\frac{\lambda}{2}\|\theta\|_2^2$ ，其中 $\|\theta\|_2^2=\sum_{i}\theta_i^2$ 是参数的L2范数。

梯度计算

L1正则化：对 $L_{L1}(\theta)$ 求关于 $\theta$ 的梯度：
$\frac{\partial L_{L1}(\theta)}{\partial \theta}=\frac{\partial L(\theta)}{\partial \theta}+\lambda\cdot\text{sign}(\theta)$
其中 $\text{sign}(\theta)$ 是符号函数，当 $\theta_i>0$ 时， $\text{sign}(\theta_i)=1$ ；当 $\theta_i<0$ 时， $\text{sign}(\theta_i)= - 1$ ；当 $\theta_i = 0$ 时， $\text{sign}(\theta_i)=0$ 。
L2正则化：对 $L_{L2}(\theta)$ 求关于 $\theta$ 的梯度：
$\frac{\partial L_{L2}(\theta)}{\partial \theta}=\frac{\partial L(\theta)}{\partial \theta}+\lambda\theta$

权重更新差异

假设使用随机梯度下降（SGD）进行参数更新，学习率为 $\eta$ 。

L1正则化：权重更新公式为 $\theta_{new}=\theta_{old}-\eta(\frac{\partial L(\theta)}{\partial \theta}+\lambda\cdot\text{sign}(\theta_{old}))$ 。L1正则化会使权重以一个固定的步长向 0 收缩，对于较小的权重，可能会直接将其收缩为 0，从而产生稀疏的权重矩阵，即部分权重为 0。
L2正则化：权重更新公式为 $\theta_{new}=\theta_{old}-\eta(\frac{\partial L(\theta)}{\partial \theta}+\lambda\theta_{old})=(1 - \eta\lambda)\theta_{old}-\eta\frac{\partial L(\theta)}{\partial \theta}$ 。L2正则化会使权重以一个与权重本身成正比的步长向 0 收缩，不会产生严格的稀疏解，但会使权重整体变小，起到平滑权重的作用。

7. 如何通过权重初始化缓解梯度消失/爆炸问题？对比Xavier与Kaiming初始化

权重初始化缓解梯度消失/爆炸问题的原理

在神经网络中，权重的初始化值会影响网络的训练效果。如果权重初始化值过大，在正向传播过程中，信号会不断放大，导致梯度爆炸；如果权重初始化值过小，信号会不断衰减，导致梯度消失。因此，合理的权重初始化可以使信号在网络中保持合适的强度，避免梯度消失和梯度爆炸问题。

Xavier初始化

Xavier初始化是由Xavier Glorot和Yoshua Bengio在2010年提出的，适用于使用Sigmoid或Tanh等对称激活函数的网络。

假设某一层的输入维度为 $n_{in}$ ，输出维度为 $n_{out}$ ，该层的权重矩阵 $W$ 的元素 $w_{ij}$ 从均匀分布 $U(-\sqrt{\frac{6}{n_{in}+n_{out}}},\sqrt{\frac{6}{n_{in}+n_{out}}})$ 中随机采样得到，或者从正态分布 $N(0,\sqrt{\frac{2}{n_{in}+n_{out}}})$ 中随机采样得到。

Xavier初始化的原理是基于保持输入和输出的方差一致。通过推导可以证明，在这种初始化方式下，信号在正向传播和反向传播过程中的方差能够得到较好的保持，从而缓解梯度消失和梯度爆炸问题。

Kaiming初始化

Kaiming初始化是由何恺明等人在2015年提出的，专门针对ReLU激活函数设计。

假设某一层的输入维度为 $n_{in}$ ，该层的权重矩阵 $W$ 的元素 $w_{ij}$ 从正态分布 $N(0,\sqrt{\frac{2}{n_{in}}})$ 中随机采样得到。

由于ReLU函数在负区间的输出为 0，会导致信号的方差在传播过程中减半。Kaiming初始化通过将权重的方差乘以 2，来补偿ReLU函数带来的方差衰减，使得信号在网络中能够更好地传播，避免梯度消失问题。

对比

适用激活函数：Xavier初始化适用于Sigmoid、Tanh等对称激活函数；Kaiming初始化适用于ReLU及其变体等非对称激活函数。
方差计算：Xavier初始化考虑了输入和输出的维度，使用 $n_{in}+n_{out}$ 来计算方差；Kaiming初始化只考虑输入维度 $n_{in}$ ，并针对ReLU的特性进行了调整。
效果：在使用ReLU激活函数的网络中，Kaiming初始化通常比Xavier初始化效果更好，能够更快地收敛和取得更高的准确率；而在使用Sigmoid或Tanh激活函数的网络中，Xavier初始化

8. 残差网络（ResNet）如何解决深层网络训练困难问题？推导残差连接公式

解决深层网络训练困难问题的原理

在传统的深层神经网络中，随着网络层数的增加，会出现梯度消失或梯度爆炸的问题，导致网络难以训练。同时，深层网络还可能出现退化问题，即随着层数的增加，训练误差和测试误差反而会增大。残差网络（ResNet）通过引入残差块（Residual Block）有效地解决了这些问题。

缓解梯度消失/爆炸：在反向传播过程中，梯度需要通过链式法则进行多层传递。在传统网络中，由于多层的导数相乘，梯度容易变得非常小（梯度消失）或非常大（梯度爆炸）。而ResNet中的残差连接允许梯度直接跳过一些层进行传递，相当于给梯度提供了一条“捷径”，使得梯度能够更顺畅地传播，避免了梯度消失或爆炸的问题。
解决退化问题：残差块的设计使得网络可以更容易地学习到恒等映射。假设我们希望学习的目标函数为 $H (x)$ ，残差块将其表示为 $H (x) = F (x) + x$ ，其中 $F (x)$ 是残差函数。如果 $F (x) = 0$ ，那么 $H (x) = x$ ，即网络实现了恒等映射。这样，在增加网络层数时，只要让新增加的层学习到恒等映射，就不会导致网络性能的退化。

残差连接公式推导

假设一个残差块的输入为 $x$ ，经过一系列卷积层等操作后的输出为 $F (x)$ ，则残差块的输出 $y$ 为：
$y = F (x) + x$

在反向传播时，我们需要计算损失函数 $L$ 关于输入 $x$ 的梯度 $\frac{\partial L}{\partial x}$ 。根据链式法则：
$\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}\cdot\frac{\partial y}{\partial x}$

由于 $y = F (x) + x$ ，所以 $\frac{\partial y}{\partial x}=\frac{\partial F(x)}{\partial x}+I$ ，其中 $I$ 是单位矩阵。

则 $\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}\cdot(\frac{\partial F(x)}{\partial x}+I)=\frac{\partial L}{\partial y}\cdot\frac{\partial F(x)}{\partial x}+\frac{\partial L}{\partial y}$

可以看到，梯度由两部分组成，一部分是经过残差函数 $F (x)$ 传递的梯度 $\frac{\partial L}{\partial y}\cdot\frac{\partial F(x)}{\partial x}$ ，另一部分是直接通过恒等映射传递的梯度 $\frac{\partial L}{\partial y}$ 。这就保证了梯度能够有效地传播，避免了梯度消失的问题。

9. 自注意力机制与卷积操作的本质区别是什么？各自适合什么场景？

本质区别

感受野：
- 卷积操作：卷积操作具有局部感受野，它通过一个固定大小的卷积核在输入数据上滑动，每次只处理局部区域的信息。例如，在图像卷积中，一个 $3\times3$ 的卷积核每次只关注输入图像中 $3\times3$ 大小的区域。这种局部性使得卷积操作能够捕捉到局部特征，如边缘、纹理等。
- 自注意力机制：自注意力机制具有全局感受野，它可以同时考虑输入序列中所有位置的信息。通过计算每个位置与其他所有位置之间的相关性，自注意力机制能够捕捉到长距离的依赖关系。例如，在自然语言处理中，它可以捕捉到句子中不同单词之间的语义关联，无论这些单词在句子中的距离有多远。
权重计算方式：
- 卷积操作：卷积核的权重是固定的，在整个输入数据上共享。这意味着无论在输入的哪个位置，卷积核都以相同的方式进行特征提取。这种权重共享的方式减少了模型的参数数量，提高了计算效率，但也限制了模型对不同位置特征的自适应能力。
- 自注意力机制：自注意力机制的权重是根据输入动态计算的。它通过计算查询（Query）、键（Key）和值（Value）之间的相似度来确定每个位置对其他位置的关注程度，从而得到不同的权重。这种动态权重的计算方式使得自注意力机制能够根据输入的不同自适应地关注不同的位置。

适合场景

卷积操作：
- 计算机视觉：由于图像具有很强的局部相关性，卷积操作非常适合处理图像数据。例如，在图像分类、目标检测、语义分割等任务中，卷积神经网络（CNN）通过多层卷积操作可以有效地提取图像的局部特征，从而取得很好的效果。
- 音频处理：音频信号也具有一定的局部特征，如语音中的音素、音乐中的音符等。卷积操作可以用于音频特征提取、语音识别等任务。
自注意力机制：
- 自然语言处理：自然语言中的句子通常具有长距离的依赖关系，自注意力机制能够很好地捕捉这些关系。例如，在机器翻译、文本生成、问答系统等任务中，Transformer模型中的自注意力机制发挥了重要作用。
- 序列数据处理：除了自然语言，其他序列数据如时间序列数据、股票价格数据等也可能存在长距离的依赖关系，自注意力机制可以用于这些序列数据的建模和预测。

10. 解释多头注意力中“头”的作用，为什么多个头比单个头效果更好？

“头”的作用

在多头注意力机制中，“头”指的是多个并行的自注意力模块。每个头都独立地进行自注意力计算，具有自己的查询（Query）、键（Key）和值（Value）投影矩阵。

每个头的作用是从不同的表示子空间中提取信息。不同的头可以关注输入序列的不同方面，学习到不同的特征表示。例如，在自然语言处理中，一个头可能更关注句子中的语法结构，另一个头可能更关注语义信息。通过多个头的组合，模型可以捕捉到更丰富、更全面的信息。

多个头比单个头效果更好的原因

增加模型的表达能力：单个头的自注意力机制可能只能关注到输入序列的某些特定方面，而多个头可以同时从不同的角度对输入进行处理，从而增加了模型的表达能力。每个头可以学习到不同的特征模式，这些模式的组合可以更准确地表示输入数据。
捕捉多样化的依赖关系：不同的头可以捕捉到不同类型的依赖关系。例如，有些头可以捕捉到长距离的依赖关系，而有些头可以捕捉到局部的依赖关系。通过多个头的协同工作，模型可以更全面地捕捉到输入序列中的各种依赖关系，提高模型的性能。
避免信息瓶颈：单个头的自注意力机制可能会存在信息瓶颈问题，即无法充分利用输入的所有信息。多个头可以并行地处理输入，每个头可以处理一部分信息，从而避免了信息瓶颈的问题，使得模型能够更好地利用输入的信息。

例如，在Transformer模型中，多头注意力机制通过多个头的组合，使得模型在自然语言处理任务中取得了很好的效果。不同的头可以学习到不同的语言特征，如语法、语义、上下文等，从而提高了模型的语言理解和生成能力。

11. 位置编码在Transformer中的必要性是什么？对比固定编码与可学习编码

必要性：
Transformer通过自注意力机制建模序列关系，但自注意力本身不依赖输入顺序。位置编码（Positional Encoding）的作用是为模型提供序列的位置信息，确保不同位置的token在语义上的顺序性被正确捕捉。若缺乏位置编码，模型将无法区分“猫追狗”和“狗追猫”这样的顺序差异。

固定编码与可学习编码对比：

固定编码（如原始Transformer的正弦余弦编码）：
- 优点：无需训练，可泛化到任意长度序列，适合长文本任务。
- 缺点：位置信息的表达能力有限，无法通过数据调整。
可学习编码（如BERT的位置嵌入）：
- 优点：通过训练优化位置表示，能更好适应特定任务的数据分布。
- 缺点：位置嵌入长度固定，难以处理远超训练长度的序列，需通过插值扩展。

12. 推导Scaled Dot-Product Attention的公式，说明缩放因子√d_k的作用

公式推导：
输入为查询Q、键K、值V，维度均为d_k。
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

点积计算： $QK^T$ 计算所有查询与键的相似性。
缩放：除以 $\sqrt{d_k}$ 防止点积过大导致softmax梯度消失。
softmax归一化：得到注意力权重。
加权求和：权重与值相乘得到输出。

缩放因子的作用：
当d_k较大时，点积的方差会增大（中心极限定理），导致softmax的梯度趋近于零（梯度消失）。缩放因子 $\sqrt{d_k}$ 通过降低方差，使softmax分布更陡峭，梯度更稳定。

13. 如何计算注意力机制的时间复杂度？长序列处理面临什么挑战？

时间复杂度：
自注意力机制的时间复杂度为 $O(n^2 d)$ ，其中：

$n$ 是序列长度，
$d$ 是每个token的特征维度。
矩阵乘法 $QK^T$ 的复杂度为 $O(n^2 d)$ ，softmax和加权求和均为线性复杂度。

长序列挑战：

计算成本爆炸： $n^2$ 导致显存和计算时间随序列长度平方增长。
内存瓶颈：中间矩阵 $QK^T$ 的存储需求为 $O(n^2)$ ，难以处理超长序列（如n=10k）。
优化需求：需采用稀疏注意力（如Longformer）、分块处理（如Reformer）或硬件加速（如GPU/TPU）。

14. 对比Transformer Encoder与Decoder的结构差异，说明掩码机制的作用

结构差异：

组件	Encoder	Decoder
自注意力	双向（无掩码）	单向（因果掩码）
交叉注意力	无	接收Encoder输出
层归一化位置	输入前	残差连接后

掩码机制作用：

自注意力掩码：在Decoder的自注意力中，通过因果掩码（Causal Mask）屏蔽未来位置的信息，确保生成过程只能依赖已生成的部分。
填充掩码：处理变长序列时，忽略填充token的影响。

15. 解释Transformer中的层归一化（LayerNorm）与残差连接的顺序问题

标准顺序：
输入 → 子层（如自注意力） → 残差连接 → LayerNorm
$\text{LN}(x + \text{SubLayer}(x))$

原因：

稳定性：归一化作用于残差后的结果，避免子层输出的分布剧烈变化。
梯度传递：残差连接允许梯度直接跳过子层，缓解深层网络的梯度消失问题。
消融实验验证：原始Transformer证明此顺序优于先归一化后连接。

16. 什么是因果掩码（Causal Mask）？在语言模型生成中的作用是什么？

定义：
因果掩码是一个上三角矩阵，用于屏蔽当前位置之后的token信息。例如，当生成第i个token时，掩码将第i+1到n的位置设为负无穷（softmax后为0）。

作用：

自回归生成：确保每个位置只能关注之前生成的token，避免信息泄漏。
单向依赖：强制模型按顺序处理序列，符合人类语言的生成逻辑。
防止作弊：在训练阶段，模型无法看到未来的标签，保证生成任务的真实性。

17. 如何理解Transformer的计算瓶颈？有哪些优化方向？

计算瓶颈：

自注意力复杂度： $O(n^2 d)$ 的时间和空间复杂度限制了长序列处理能力。
内存墙问题：中间结果（如注意力矩阵）的存储需求远超计算能力增长。
并行化限制：自注意力的序列依赖难以高效并行。

优化方向：

算法优化：稀疏注意力（如局部窗口、随机抽样）、线性注意力（将复杂度降为 $O(n d^2)$ ）。
硬件加速：专用芯片（如Google TPU）、混合精度训练（FP16/FP8）。
模型结构调整：引入递归层（如Transformer-XL）或分块处理（如Reformer）。

18. 对比BERT与GPT的预训练目标，说明其对下游任务的影响

预训练目标：

BERT：
1. 掩码语言模型（MLM）：随机掩码15%的token，预测被遮罩词。
2. 下一句预测（NSP）：判断两个句子是否为上下文关系。
GPT：
自回归语言模型（AR-LM）：根据前文预测下一个词，采用因果掩码。

对下游任务的影响：

BERT：双向编码适合理解类任务（如问答、文本分类），但需通过微调适配生成任务。
GPT：单向生成能力强，天然适合文本生成（如对话、摘要），但在理解任务中需额外训练。

19. 为什么LLaMA系列模型采用Decoder-only架构？与Encoder-Decoder的区别？

原因：

生成效率：Decoder-only架构在自回归生成时无需处理Encoder的冗余计算。
并行能力：可利用GPU的并行计算优化生成速度（如FlashAttention）。
模型规模：减少参数数量（无需交叉注意力层），更易扩展至千亿参数。

与Encoder-Decoder的区别：

特性	Decoder-only（LLaMA）	Encoder-Decoder（T5）
自注意力	单向（因果掩码）	双向（Encoder）+ 单向（Decoder）
交叉注意力	无	有（Decoder接收Encoder输出）
典型任务	文本生成	翻译、摘要等序列转换

20. 模型参数量与训练数据量的关系如何？经验法则是什么？

关系：
模型参数量需与训练数据量匹配，以避免过拟合或欠拟合。

过拟合：数据量不足时，大模型会记忆噪声。
欠拟合：小模型无法充分利用大规模数据。

经验法则：

最小数据量：数据量应至少是模型参数量的10倍（即 $N_{\text{data}} \geq 10 \times N_{\text{params}}$ ）。
理想比例：对于千亿级模型，数据量需达到万亿token级别（如LLaMA-2 70B使用2万亿token训练）。
动态平衡：当数据质量高时，可适当降低比例；低质量数据需更多数据量稀释噪声。