use*_*129 1 deep-learning huggingface-transformers huggingface-tokenizers huggingface
我尝试使用 wav2vec2 (XLSR 模型)但没有成功:
import transformers
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import librosa
import torch
wav2vec2_processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-xlsr-53")
wav2vec2_model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-xlsr-53")
file_name = "test.wav"
speech, sr = librosa.load(file_name, sr=16000)
input_values = wav2vec2_processor(speech, sampling_rate=16000, return_tensors="pt").input_values
logits = wav2vec2_model(input_values).logits
Run Code Online (Sandbox Code Playgroud)
错误:
OSError: Can't load tokenizer for 'facebook/wav2vec2-large-xlsr-53'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure 'facebook/wav2vec2-large-xlsr-53' is the correct path to a directory containing all relevant files for a Wav2Vec2CTCTokenizer tokenizer.
Run Code Online (Sandbox Code Playgroud)
如何使用 wav2vec2(XLSR 模型)?
该特定的 Wav2Vec 模型仅提供预先训练的表示向量,并且没有微调的 CTC/语音识别模型:
请注意,该模型应该在下游任务上进行微调,例如自动语音识别。
jonatasgrosman/wav2vec2-large-xlsr-53-english是基于 Wav2Vec2 XLSR 的流行的英语微调 CTC 模型,其他语言的模型也已得到训练。
如果您想无论如何使用模型的输出(仅从音频获取特征向量),请使用 aWav2Vec2FeatureExtractor代替Wav2Vec2Processor,并Wav2Vec2Model代替Wav2Vec2ForCTC。
(AWav2Vec2Processor结合了 aFeatureExtractor和 a Tokenizer[ docs ]。由于分词取决于模型微调的任务,未微调的语音模型通常没有分词器。感谢Github上的 @mmbejani信息。)
| 归档时间: |
|
| 查看次数: |
1088 次 |
| 最近记录: |