GPT-2的“提示”中可以输入多少个字符

Question

GPT-2的“提示”中可以输入多少个字符

Han*_*ith 5 python nlp openai-api gpt-2

我正在使用github上的 OpenAI GPT-2 模型

我认为 top_k 参数决定了采样的令牌数量。这也是决定可以给出多大提示的参数吗？

如果top_k = 40，提示符可以有多大？

Answer 1

Jin*_*ich 5

GPT-2 不适用于字符级别，而是适用于子字级别。训练的文本段的最大长度为 1,024 个子词。

\n

它使用基于字节对编码的词汇表。在这种编码下，频繁的单词保持完整，不频繁的单词被分成几个单元，最终下降到字节级别。实际上，分段看起来像这样（69 个字符，17 个子词）：

\n

Hello , \xe2\x96\x81Stack Over flow ! \xe2\x96\x81This \xe2\x96\x81is \xe2\x96\x81an \xe2\x96\x81example \xe2\x96\x81how _a \xe2\x96\x81string \xe2\x96\x81gets \xe2\x96\x81segment ed .\n

Run Code Online (Sandbox Code Playgroud)\n

在训练时，提示和答案没有区别，所以唯一的限制是提示和答案总共不能超过 1,024 个子词。理论上，你可以继续生成超过这个时间，但历史模型认为永远不会更长。

\n

的选择top_k仅影响内存需求。长查询也需要更多内存，但这可能不是主要限制

\n

归档时间：	5 年，6 月前
查看次数：	6214 次
最近记录：	5 年，3 月前