拥抱面变压器：encode_plus 中的截断策略

Question

拥抱面变压器：encode_plus 中的截断策略

ped*_*jjj 0 pytorch huggingface-transformers

encode_plus在 Huggingface 的转换器库中，允许截断输入序列。有两个参数是相关的：truncation和max_length。我将成对的输入序列传递给encode_plus并且需要以“截断”的方式简单地截断输入序列，即，如果整个序列由两个输入组成text并且text_pair比max_length它长，则应该从右侧相应地截断。

似乎这两种截断策略都不允许这样做，而是longest_first从最长的序列中删除标记（可以是 text 或 text_pair，但不仅仅是从序列的右侧或末尾，例如，如果文本更长，则 text_pair ，这似乎会首先从文本中删除标记），only_first并only_second仅从第一个或第二个中删除标记（因此，也不仅仅是从末尾删除），并且do_not_truncate根本不会截断。还是我误解了这一点，实际上longest_first可能是我正在寻找的？

Answer 1

cro*_*oik 5

不longest_first与cut from the right. 当您将截断策略设置为时longest_first，分词器将比较两者的长度，text并且text_pair每次需要删除一个标记并从最长的标记中删除一个标记。在可以例如意味着它将切断从第一3个令牌text_pair，并且将切这就需要交替地从待切割的令牌的其余部分text和text_pair。一个例子：

from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')

seq1 = 'This is a long uninteresting text'
seq2 = 'What could be a second sequence to the uninteresting text'

print(len(tokenizer.tokenize(seq1)))
print(len(tokenizer.tokenize(seq2)))

print(tokenizer(seq1, seq2))

print(tokenizer(seq1, seq2, truncation= True, max_length = 15))
print(tokenizer.decode(tokenizer(seq1, seq2, truncation= True, max_length = 15)['input_ids']))

Run Code Online (Sandbox Code Playgroud)

输出：

9
13
{'input_ids': [101, 2023, 2003, 1037, 2146, 4895, 18447, 18702, 3436, 3793, 102, 2054, 2071, 2022, 1037, 2117, 5537, 2000, 1996, 4895, 18447, 18702, 3436, 3793, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
{'input_ids': [101, 2023, 2003, 1037, 2146, 4895, 18447, 102, 2054, 2071, 2022, 1037, 2117, 5537, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
[CLS] this is a long unint [SEP] what could be a second sequence [SEP]

Run Code Online (Sandbox Code Playgroud)

据我从您的问题中可以看出，您实际上正在寻找，only_second因为它从右侧（即text_pair）切入：

9
13
{'input_ids': [101, 2023, 2003, 1037, 2146, 4895, 18447, 18702, 3436, 3793, 102, 2054, 2071, 2022, 1037, 2117, 5537, 2000, 1996, 4895, 18447, 18702, 3436, 3793, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
{'input_ids': [101, 2023, 2003, 1037, 2146, 4895, 18447, 102, 2054, 2071, 2022, 1037, 2117, 5537, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
[CLS] this is a long unint [SEP] what could be a second sequence [SEP]

Run Code Online (Sandbox Code Playgroud)

输出：

{'input_ids': [101, 2023, 2003, 1037, 2146, 4895, 18447, 18702, 3436, 3793, 102, 2054, 2071, 2022, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

Run Code Online (Sandbox Code Playgroud)

当您尝试text输入的长度超过指定的 max_length时，它会抛出异常。我认为这是正确的，因为在这种情况下它不再是序列对输入。

万一only_second不符合您的要求，您可以简单地创建自己的截断策略。only_second以手工为例：


tok_seq1 = tokenizer.tokenize(seq1)
tok_seq2 = tokenizer.tokenize(seq2)

maxLengthSeq2 =  myMax_len - len(tok_seq1) - 3 #number of special tokens for bert sequence pair
if len(tok_seq2) >  maxLengthSeq2:
    tok_seq2 = tok_seq2[:maxLengthSeq2]

input_ids = [tokenizer.cls_token_id] 
input_ids += tokenizer.convert_tokens_to_ids(tok_seq1)
input_ids += [tokenizer.sep_token_id]

token_type_ids = [0]*len(input_ids)

input_ids += tokenizer.convert_tokens_to_ids(tok_seq2)
input_ids += [tokenizer.sep_token_id]
token_type_ids += [1]*(len(tok_seq2)+1) 


attention_mask = [1]*len(input_ids)
print(input_ids)
print(token_type_ids)
print(attention_mask)

Run Code Online (Sandbox Code Playgroud)

输出：

[101, 2023, 2003, 1037, 2146, 4895, 18447, 18702, 3436, 3793, 102, 2054, 2071, 2022, 102]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，2 月前
查看次数：	3419 次
最近记录：	5 年，2 月前