无法使用 wav2vec2-large-xlsr 模型（无法加载分词器）

Question

无法使用 wav2vec2-large-xlsr 模型（无法加载分词器）

use*_*129 1 deep-learning huggingface-transformers huggingface-tokenizers huggingface

我尝试使用 wav2vec2 （XLSR 模型）但没有成功：

import transformers
from transformers      import Wav2Vec2ForCTC, Wav2Vec2Processor
import librosa
import torch


wav2vec2_processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-xlsr-53")
wav2vec2_model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-xlsr-53")


file_name     = "test.wav"
speech, sr    = librosa.load(file_name, sr=16000)
input_values  = wav2vec2_processor(speech, sampling_rate=16000, return_tensors="pt").input_values

logits        = wav2vec2_model(input_values).logits

Run Code Online (Sandbox Code Playgroud)

错误：

OSError: Can't load tokenizer for 'facebook/wav2vec2-large-xlsr-53'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure 'facebook/wav2vec2-large-xlsr-53' is the correct path to a directory containing all relevant files for a Wav2Vec2CTCTokenizer tokenizer.

Run Code Online (Sandbox Code Playgroud)

如何使用 wav2vec2（XLSR 模型）？

Answer 1

fut*_*lus 5

该特定的 Wav2Vec 模型仅提供预先训练的表示向量，并且没有微调的 CTC/语音识别模型：

请注意，该模型应该在下游任务上进行微调，例如自动语音识别。

jonatasgrosman/wav2vec2-large-xlsr-53-english是基于 Wav2Vec2 XLSR 的流行的英语微调 CTC 模型，其他语言的模型也已得到训练。

如果您想无论如何使用模型的输出（仅从音频获取特征向量），请使用 aWav2Vec2FeatureExtractor代替Wav2Vec2Processor，并Wav2Vec2Model代替Wav2Vec2ForCTC。

（AWav2Vec2Processor结合了 aFeatureExtractor和 a Tokenizer[ docs ]。由于分词取决于模型微调的任务，未微调的语音模型通常没有分词器。感谢Github上的 @mmbejani信息。）

归档时间：	2 年，9 月前
查看次数：	1088 次
最近记录：	2 年，8 月前