Hugging-Face Transformers：从路径错误加载模型

Question

Hugging-Face Transformers：从路径错误加载模型

Spa*_*tan 5 huggingface-transformers huggingface-tokenizers

我对 Hugging-Face 变压器很陌生。当我尝试从给定路径加载xlm-roberta-base模型时，我面临以下问题：

>> tokenizer = AutoTokenizer.from_pretrained(model_path)
>> Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/home/user/anaconda3/lib/python3.7/site-packages/transformers/tokenization_auto.py", line 182, in from_pretrained
    return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs)
  File "/home/user/anaconda3/lib/python3.7/site-packages/transformers/tokenization_utils.py", line 309, in from_pretrained
    return cls._from_pretrained(*inputs, **kwargs)
  File "/home/user/anaconda3/lib/python3.7/site-packages/transformers/tokenization_utils.py", line 458, in _from_pretrained
    tokenizer = cls(*init_inputs, **init_kwargs)
  File "/home/user/anaconda3/lib/python3.7/site-packages/transformers/tokenization_roberta.py", line 98, in __init__
    **kwargs,
  File "/home/user/anaconda3/lib/python3.7/site-packages/transformers/tokenization_gpt2.py", line 133, in __init__
    with open(vocab_file, encoding="utf-8") as vocab_handle:
TypeError: expected str, bytes or os.PathLike object, not NoneType

Run Code Online (Sandbox Code Playgroud)

但是，如果我按其名称加载它，则没有问题：

>> tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-base')

Run Code Online (Sandbox Code Playgroud)

我将不胜感激任何帮助。

Answer 1

cro*_*oik 2

我假设您已经按照文档中的描述创建了该目录：

tokenizer.save_pretrained('YOURPATH')

Run Code Online (Sandbox Code Playgroud)

目前正在调查一个问题，该问题仅影响 AutoTokenizer，但不影响底层标记生成器，例如 (XLMRobertaTokenizer)。例如，以下内容应该有效：

from transformers import XLMRobertaTokenizer

tokenizer = XLMRobertaTokenizer.from_pretrained('YOURPATH')

Run Code Online (Sandbox Code Playgroud)

要使用 AutoTokenizer，您还需要保存配置以离线加载它：

from transformers import AutoTokenizer, AutoConfig

tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-base')
config = AutoConfig.from_pretrained('xlm-roberta-base')

tokenizer.save_pretrained('YOURPATH')
config.save_pretrained('YOURPATH')

tokenizer = AutoTokenizer.from_pretrained('YOURPATH')

Run Code Online (Sandbox Code Playgroud)

我建议对分词器和模型使用不同的路径，或者保留模型的 config.json，因为应用于模型的一些修改将存储在 config.json 中，该修改是在创建过程中创建的model.save_pretrained()，并且在您使用时将被覆盖。如上所述，在模型之后保存标记生成器（即您将无法使用标记生成器 config.json 加载修改后的模型）。

归档时间：	5 年，4 月前
查看次数：	1621 次
最近记录：	4 年，2 月前