keras.preprocessing.text.Tokenizer 在 Pytorch 中等效吗?

kat*_*ex7 5 nlp keras tensorflow pytorch

基本上就是标题;keras.preprocessing.text.TokenizerPytorch 中有类似的东西吗?我还没有找到任何一个可以提供所有实用程序而无需手工制作的东西。

Fen*_*Mai 4

我发现 Torchtext 更难以用于简单的事情。PyTorch-NLP可以通过更直接的方式做到这一点:

\n\n
from torchnlp.encoders.text import StaticTokenizerEncoder\xef\xbc\x8c stack_and_pad_tensors, pad_tensor\n\nloaded_data = ["now this ain\'t funny", "so don\'t you dare laugh"]\nencoder = StaticTokenizerEncoder(loaded_data, tokenize=lambda s: s.split())\nencoded_data = [encoder.encode(example) for example in loaded_data]\n\nprint(encoded_data)\n
Run Code Online (Sandbox Code Playgroud)\n\n
\n

[张量([5,6,7,8]),张量([9,10,11,12,13])]

\n
\n\n
encoded_data = [pad_tensor(x, length=10) for x in encoded_data]\nprint(stack_and_pad_tensors(encoded_data))\n# alternatively, use encoder.batch_encode()\n
Run Code Online (Sandbox Code Playgroud)\n\n
\n

BatchedSequences(张量=张量([[ 5, 6, 7, 8, 0, 0, 0, 0, 0, 0], [ 9, 10, 11, 12, 13, 0, 0, 0, 0, 0] ]), 长度=张量([10, 10]))\n \xe2\x80\x8b

\n
\n\n

它附带了其他类型的编码器,例如 spaCy 的分词器、子字编码器等。

\n