pytorch 或 Huggingface/transformer 标签的代码中的何处被“重命名”为标签？

Question

pytorch 或 Huggingface/transformer 标签的代码中的何处被“重命名”为标签？

Vla*_*sin 2 python pytorch huggingface-transformers

我的问题涉及这个例子，可以在伟大的huggingface/transformers库中找到。

我正在使用库创建者提供的笔记本作为我的管道的起点。它提出了一个在 Glue 数据集上微调 BERT 进行句子分类的流程。

当进入代码时，我注意到一个非常奇怪的事情，我无法解释。

InputFeatures在示例中，输入数据作为类的实例从此处引入模型：

该类有4个属性，包括label属性：

class InputFeatures:
    ...
    input_ids: List[int]
    attention_mask: Optional[List[int]] = None
    token_type_ids: Optional[List[int]] = None
    label: Optional[Union[int, float]] = None

Run Code Online (Sandbox Code Playgroud)

随后将其作为输入字典传递给forward()模型方法。这是由Trainer类完成的，例如这里的第 573-576 行：

    def _training_step(
        self, model: nn.Module, inputs: Dict[str, torch.Tensor], optimizer: torch.optim.Optimizer
    ) -> float:
        model.train()
        for k, v in inputs.items():
            inputs[k] = v.to(self.args.device)

        outputs = model(**inputs)

Run Code Online (Sandbox Code Playgroud)

但是，该forward()方法需要标签（注意复数形式）输入参数（取自此处）：

    def forward(
        self,
        input_ids=None,
        attention_mask=None,
        head_mask=None,
        inputs_embeds=None,
        labels=None,
        output_attentions=None,
    ):

Run Code Online (Sandbox Code Playgroud)

所以我的问题是标签在这个管道中在哪里成为标签？

为了提供有关该问题的一些额外信息，我创建了自己的管道，该管道不使用任何与 Glue 数据和管道相关的内容，基本上它仅依赖于Trainer变压器类。我什至使用另一个模型（福楼拜）。我复制了 InputFeature 类，我的代码适用于以下两种情况：

class InputFeature:
    def __init__(self, text, label):
        self.input_ids = text
        self.label = label

class InputFeaturePlural:
    def __init__(self, text, label):
        self.input_ids = text
        self.labels = label

Run Code Online (Sandbox Code Playgroud)

self.labe但如果我将第二个属性命名为任何其他名称，则它不起作用。为什么可以使用两个属性名称？

这对我来说并不是非常重要，但我在变量中传递数据感到不舒服，因为变量会在某个地方“更改名称”。

Answer 1

Ber*_*iel 5

重命名发生在collator. 在训练器初始化中，当data_collatoris时None，使用默认值：

class Trainer:
    # ...
    def __init__(...):
        # ...
        self.data_collator = data_collator if data_collator is not None else default_data_collator
        # ...

Run Code Online (Sandbox Code Playgroud)

仅供参考，self.data_collator稍后在获取数据加载器时使用：

data_loader = DataLoader(
    self.train_dataset,
    batch_size=self.args.train_batch_size,
    sampler=train_sampler,
    collate_fn=self.data_collator,              # <-- here
    drop_last=self.args.dataloader_drop_last,
)

Run Code Online (Sandbox Code Playgroud)

默认整理器对 labels 有特殊处理，如果需要，它会进行重命名：

# Special handling for labels.
# Ensure that tensor is created with the correct type
# (it should be automatically the case, but let's make sure of it.)
if hasattr(first, "label") and first.label is not None:
    if type(first.label) is int:
        labels = torch.tensor([f.label for f in features], dtype=torch.long)
    else:
        labels = torch.tensor([f.label for f in features], dtype=torch.float)
    batch = {"labels": labels}  # <-- here is where it happens
elif hasattr(first, "label_ids") and first.label_ids is not None:
    if type(first.label_ids[0]) is int:
        labels = torch.tensor([f.label_ids for f in features], dtype=torch.long)
    else:
        labels = torch.tensor([f.label_ids for f in features], dtype=torch.float)
    batch = {"labels": labels}
else:
    batch = {}

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，3 月前
查看次数：	1665 次
最近记录：	4 年，5 月前