无法使用 wav2vec2-large-xlsr 模型(无法加载分词器)

use*_*129 1 deep-learning huggingface-transformers huggingface-tokenizers huggingface

我尝试使用 wav2vec2 (XLSR 模型)但没有成功:

import transformers
from transformers      import Wav2Vec2ForCTC, Wav2Vec2Processor
import librosa
import torch


wav2vec2_processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-xlsr-53")
wav2vec2_model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-xlsr-53")


file_name     = "test.wav"
speech, sr    = librosa.load(file_name, sr=16000)
input_values  = wav2vec2_processor(speech, sampling_rate=16000, return_tensors="pt").input_values

logits        = wav2vec2_model(input_values).logits
Run Code Online (Sandbox Code Playgroud)

错误:

OSError: Can't load tokenizer for 'facebook/wav2vec2-large-xlsr-53'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure 'facebook/wav2vec2-large-xlsr-53' is the correct path to a directory containing all relevant files for a Wav2Vec2CTCTokenizer tokenizer.
Run Code Online (Sandbox Code Playgroud)

如何使用 wav2vec2(XLSR 模型)?

fut*_*lus 5

该特定的 Wav2Vec 模型仅提供预先训练的表示向量,并且没有微调的 CTC/语音识别模型:

请注意,该模型应该在下游任务上进行微调,例如自动语音识别。

jonatasgrosman/wav2vec2-large-xlsr-53-english是基于 Wav2Vec2 XLSR 的流行的英语微调 CTC 模型,其他语言的模型也已得到训练。

如果您想无论如何使用模型的输出(仅从音频获取特征向量),请使用 aWav2Vec2FeatureExtractor代替Wav2Vec2Processor,并Wav2Vec2Model代替Wav2Vec2ForCTC

(AWav2Vec2Processor结合了 aFeatureExtractor和 a Tokenizer[ docs ]。由于分词取决于模型微调的任务,未微调的语音模型通常没有分词器。感谢Github上的 @mmbejani信息。)