Torchtext 0.7 显示 Field 已被弃用。什么是替代方案?

Pac*_*aco 16 pytorch torchtext

看起来之前声明字段、示例和使用 BucketIterator 的范式已被弃用,并将在 0.8 中转移到旧版。但是,我似乎无法找到不使用 Field 的自定义数据集的新范式示例(例如,不是 torch.datasets 中包含的那些)。谁能给我指出一个最新的例子?

弃用参考:

https://github.com/pytorch/text/releases

Ste*_*ven 6

我自己花了一点时间才找到解决方案。对于预构建的数据集,新范式是这样的:

from torchtext.experimental.datasets import AG_NEWS
train, test = AG_NEWS(ngrams=3)
Run Code Online (Sandbox Code Playgroud)

或者对于自定义构建的数据集也是如此:

from torch.utils.data import DataLoader
def collate_fn(batch):
    texts, labels = [], []
    for label, txt in batch:
        texts.append(txt)
        labels.append(label)
    return texts, labels
dataloader = DataLoader(train, batch_size=8, collate_fn=collate_fn)
for idx, (texts, labels) in enumerate(dataloader):
    print(idx, texts, labels)
Run Code Online (Sandbox Code Playgroud)

我已经从源中复制了示例

  • 嗨史蒂文,谢谢你。不管怎样,你有没有找到关于我们如何构建词汇、标记化等的任何片段? (2认同)