Ami*_*adi 3 deep-learning pytorch gpt-2 text-generation
我想为特定的文本生成任务编写一个类似 GPT 的转换器。类似 GPT 的模型仅使用解码器块(在堆栈中)[1]。我知道如何在 Pytorch 中编码如下所示的解码器块的所有子模块(从嵌入到 softmax 层)。但是,我不知道应该提供什么作为输入。它说(在图中)“输出右移”。
例如,这是我的数据(其中 < 和 > 是 sos 和 eos 令牌):
我应该为类似 GPT 的模型提供什么才能正确训练它?
另外,由于我没有使用编码器,我是否仍然应该向多头注意块提供输入?
抱歉,如果我的问题看起来有点愚蠢,我对变形金刚很陌生。
小智 5
像 GPT 这样的纯解码器模型的输入通常是一系列标记,就像编码器-解码器模型一样。然而,不同之处在于输入的处理方式。
在编码器-解码器模型中,输入序列首先由编码器组件处理,该组件生成输入的固定大小表示,通常称为“上下文向量”。然后解码器组件使用上下文向量来生成输出序列。
相比之下,在 GPT 这样的纯解码器模型中,没有单独的编码器组件。相反,输入序列直接输入解码器,解码器通过自注意力机制关注输入序列来生成输出序列。
在这两种情况下,输入序列通常是表示正在处理的文本数据的标记序列。标记可以是单词、子单词或字符,具体取决于特定的建模方法和正在处理的文本数据的粒度。
归档时间: |
|
查看次数: |
4297 次 |
最近记录: |