kat*_*ex7 5 nlp keras tensorflow pytorch
基本上就是标题;keras.preprocessing.text.TokenizerPytorch 中有类似的东西吗?我还没有找到任何一个可以提供所有实用程序而无需手工制作的东西。
我发现 Torchtext 更难以用于简单的事情。PyTorch-NLP可以通过更直接的方式做到这一点:
\n\nfrom torchnlp.encoders.text import StaticTokenizerEncoder\xef\xbc\x8c stack_and_pad_tensors, pad_tensor\n\nloaded_data = ["now this ain\'t funny", "so don\'t you dare laugh"]\nencoder = StaticTokenizerEncoder(loaded_data, tokenize=lambda s: s.split())\nencoded_data = [encoder.encode(example) for example in loaded_data]\n\nprint(encoded_data)\nRun Code Online (Sandbox Code Playgroud)\n\n\n\n\n[张量([5,6,7,8]),张量([9,10,11,12,13])]
\n
encoded_data = [pad_tensor(x, length=10) for x in encoded_data]\nprint(stack_and_pad_tensors(encoded_data))\n# alternatively, use encoder.batch_encode()\nRun Code Online (Sandbox Code Playgroud)\n\n\n\n\nBatchedSequences(张量=张量([[ 5, 6, 7, 8, 0, 0, 0, 0, 0, 0], [ 9, 10, 11, 12, 13, 0, 0, 0, 0, 0] ]), 长度=张量([10, 10]))\n \xe2\x80\x8b
\n
它附带了其他类型的编码器,例如 spaCy 的分词器、子字编码器等。
\n| 归档时间: |
|
| 查看次数: |
4829 次 |
| 最近记录: |