shi0rik0 的博客shi0rik0 的博客
主页
所有文章
按类别浏览
按标签浏览
Ubuntu 实用脚本
Next.js 配置脚本
主页
所有文章
按类别浏览
按标签浏览
Ubuntu 实用脚本
Next.js 配置脚本
ACGN 1pinia 1electron 2理财 1神经网络 1transformer 1npm 1WSL 1算法八股文 7滑动窗口 1前缀和 1前缀树 1树状数组 1SSE 1Linux 1VS Code 1VuePress 1Spring 2
Transformer decoder推理时是否应该设置causal mask

Date: 2/19/2025Category: Tag: transformer

最近在扣关于Transformer的细节,结果发现了一个问题:众所周知,在训练Transformer的过程中,decode的时候要使用causal mask避免泄漏还未生成的信息。在推理的时候,由于我们是逐个生成token的,所以不会出现泄漏的问题,那么是不是就不需要causal mask了呢?后来我看到StackExchange上有个人和我有相同的问题:Is the Mask Needed for Masked Self-Attention During Inference with GPT-2。目前我对这个问题的理解是这样的:答案是依然需要。