Huggingface:如何找到模型的最大长度?

Gol*_*ame 7 pytorch huggingface-transformers huggingface-tokenizers huggingface

给定huggingface上的变压器模型,如何找到最大输入序列长度?

例如,这里我想截断到模型的 max_length:tokenizer(examples["text"], padding="max_length", truncation=True)How do I find the value of "max_length"?

我需要知道,因为我正在尝试解决此错误“要求填充到 max_length 但未提供最大长度,并且模型没有预定义的最大长度。默认为无填充。”

len*_*ung 4

也许晚了,但如果您还没有找到解决方案,我认为您可以使用该模型的标记器。例如:

>>> MODEL = "google/flan-t5-xl"
>>> tokenizer = AutoTokenizer.from_pretrained(MODEL)
>>> tokenizer.model_max_length
512

>>> MODEL = "facebook/bart-base"
>>> tokenizer = AutoTokenizer.from_pretrained(MODEL)
>>> tokenizer.model_max_length
1024
Run Code Online (Sandbox Code Playgroud)