小编Pie*_*tro的帖子

使用数据集、标记器和火炬数据集和数据加载器进行动态标记化

我有一个关于“即时”标记化的问题。这个问题是通过阅读“如何使用 Transformers 和 Tokenizers 从头开始​​训练新的语言模型”引发。最后有这样一句话:“如果您的数据集非常大,您可以选择动态加载和标记示例,而不是作为预处理步骤”。我尝试提出一个将datasets和结合起来的解决方案tokenizers,但没有找到一个好的模式。

我想解决方案需要将数据集包装到 Pytorch 数据集中。

作为文档中的具体示例

import torch

class SquadDataset(torch.utils.data.Dataset):
    def __init__(self, encodings):
        # instead of doing this beforehand, I'd like to do tokenization on the fly
        self.encodings = encodings 

    def __getitem__(self, idx):
        return {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}

    def __len__(self):
        return len(self.encodings.input_ids)

train_dataset = SquadDataset(train_encodings)
Run Code Online (Sandbox Code Playgroud)

如何利用标记器的矢量化功能通过“即时”标记化来实现这一点?

huggingface-transformers huggingface-tokenizers gpt-2

7
推荐指数
1
解决办法
4085
查看次数

如何在 Plots.jl 中设置标题字体大小

有没有一种简单的方法可以仅更改 Plots.jl 中标题的字体大小(即其他所有内容都应保持不变)?

julia plots.jl

6
推荐指数
1
解决办法
4745
查看次数