在 GPU 上运行 Huggingface Bert 分词器

teh*_*hem 2 nlp deep-learning huggingface-transformers huggingface-tokenizers

我正在处理一个巨大的文本数据集以进行内容分类。我已经实现了 distilbert 模型和 distilberttokenizer.from_pretrained() tokenizer。这个 tokenizer 花费了非常长的时间来对我的文本数据进行 tokenizer 大约 7 分钟,只有 14k 记录,这是因为它在我的 CPU 上运行。

有什么方法可以强制标记器在我的 GPU 上运行。

Jin*_*ich 8

标记化是字符串操作。它基本上是一个带有一堆 if-else 条件和字典查找的字符串的 for 循环。使用 GPU 不可能加快速度。基本上,GPU 唯一能做的就是张量乘法和加法。只有可以使用张量运算表述的问题才能使用 GPU 进行加速。

Huggingface Transformers 中的默认分词器是用 Python 实现的。有一个用 Rust 实现的更快版本。您可以从独立包Huggingface Tokenziers或较新版本的 Transformers 中获取它,它们应该在DistilBertTokenizerFast.