小编teh*_*hem的帖子

在 GPU 上运行 Huggingface Bert 分词器

我正在处理一个巨大的文本数据集以进行内容分类。我已经实现了 distilbert 模型和 distilberttokenizer.from_pretrained() tokenizer。这个 tokenizer 花费了非常长的时间来对我的文本数据进行 tokenizer 大约 7 分钟,只有 14k 记录,这是因为它在我的 CPU 上运行。

有什么方法可以强制标记器在我的 GPU 上运行。

nlp deep-learning huggingface-transformers huggingface-tokenizers

2
推荐指数
1
解决办法
1万
查看次数