raf*_*g07 6 python encoding nlp gpt-2
此问题适用于熟悉 GPT 或GPT2 OpenAI 模型的人。特别是与编码任务(字节对编码)。这是我的问题:
我想知道如何创建自己的 vocab.bpe 文件。
我有一个西班牙语语料库文本,我想用它来适应我自己的 bpe 编码器。我已经成功地使用python-bpe库创建了encoder.json,但我不知道如何获取 vocab.bpe 文件。我已经查看了gpt-2/src/encoder.py 中的代码,但是我没有找到任何提示。任何帮助或想法?
非常感谢你。
小智 5
看看这里,您可以使用以下命令轻松创建相同的 vocab.bpe:
python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1802 次 |
| 最近记录: |