音频文件的样本包含什么?
当我运行命令"sox file.wav -r 10 file.dat"时,输出就像
; Sample Rate 10
; Channels 2
0 0.00085449219 -0.0007019043
0.1 0.01348877 -0.011260986
0.2 0.015930176 -0.013214111
0.3 0.014923096 -0.012390137
... ... ...
Run Code Online (Sandbox Code Playgroud)
我知道第一列是第二列和第三列代表2个通道的时间.
但我想知道通道值包含什么?
我有一堆音频文件,需要基于静音和使用SOX拆分每个文件。但是,我意识到有些文件的背景非常嘈杂,有些则没有,因此我无法使用单个参数集对所有进行分割的文件进行迭代。我试图找出如何通过嘈杂的背景将它们分开。以下是我从得到sox input1.flac -n stat和sox input2.flac -n stat
Samples read: 18207744
Length (seconds): 568.992000
Scaled by: 2147483647.0
Maximum amplitude: 0.999969
Minimum amplitude: -1.000000
Midline amplitude: -0.000015
Mean norm: 0.031888
Mean amplitude: -0.000361
RMS amplitude: 0.053763
Maximum delta: 0.858917
Minimum delta: 0.000000
Mean delta: 0.018609
RMS delta: 0.039249
Rough frequency: 1859
Volume adjustment: 1.000
Run Code Online (Sandbox Code Playgroud)
和
Samples read: 198976896
Length (seconds): 6218.028000
Scaled by: 2147483647.0
Maximum amplitude: 0.999969
Minimum amplitude: -1.000000
Midline amplitude: -0.000015
Mean norm: 0.156168
Mean …Run Code Online (Sandbox Code Playgroud) 我正在尝试用 C 编写一个程序,将捕获的Raw 16kHz PCM 16 位文件转换为16 位 WAV。
我读过一些帖子,人们推荐使用libsox. 安装了它,现在我真的很难理解手册页。
到目前为止(通过阅读源代码中的示例)我已经发现structs:
大概可以用来描述我输入的数据。如果有必要,我也知道我正在处理多少信息(时间)?
一些指导表示赞赏!
当我尝试处理我得到的flac文件时
"没有文件扩展名flac的处理程序"
错误.有没有办法在Windows中解决这个问题.
我想使用SoX库将语音转换为机器人语音(例如,星际争霸游戏的歌利亚语音)。
我在网络上找到了机器人语音的以下顺序,但并没有产生机器人语音。
过载10回波0.8 0.8 5 0.7回波0.8 0.7 6 0.7回波0.8 0.7 10 0.7回波0.8 0.7 12 0.7回波0.8 0.88 12 0.7回波0.8 0.88 30 0.7回波0.6 0.6 60 0.7
发出机器人声音需要什么效果?你能告诉我一系列的效果和选择吗?
提前致谢。
有没有办法使用 SoX / FFmpeg 或类似方法从音频文件中修剪 N 个样本?
我一直在玩sox并使用trim命令将整个音频分成n个部分(每个部分固定长度)应该相当简单.
然而,当我打算分割语音录音时,可能会发生一个简单的分裂将在一个单词的中间分裂.
有没有办法防止这种情况,并确保部件包含"整个单词"?
所以我目前正在尝试将我的麦克风输入从我的树莓派(rasbian)流式传输到某种网络流,以便稍后在我的手机上接收它。为了做到这一点,我使用arecord -D plughw:1,0 -f dat -r 44100 |顶部管道将声流从我的 USB 麦克风传输到标准输出,据我所知,它工作正常,但我需要声音大一点,这样我才能理解站在远处的人。
所以我通过管道将它传递给 sox play 命令,如下所示:
arecord -D plughw:1,0 -f dat -r 44100| play -t raw -b 16 -e signed -c 2 -v 7 -r 44100 - test.wav
(test.wav 只是一些随机的 wav 文件 id 没有它就无法工作,并且 - 后面的 44100 和 test.wav 之间有一个空格,因为我认为 - 是一个单独的参数:
SPECIAL FILENAMES (infile, outfile):
- Pipe/redirect input/output (stdin/stdout); may need -t
-d, --default-device Use the default audio device (where available))
我发现通过使用 -v 参数可以增加音量。这会将录制的流播放到我连接到 raspberry pi 3 的扬声器。 …
例如,我有一个带有语音的 wav 文件。
我可以使用 sox 创建漂亮的频谱图可视化:
wget https://google.github.io/tacotron/publications/tacotron2/demos/romance_gt.wav
sox romance_gt.wav -n spectrogram -o spectrogram.png
Run Code Online (Sandbox Code Playgroud)
我怎样才能在Python中重现这个频谱图?
这是使用scipy.signal.spectrogram的示例
input_file = 'temp/romance_gt.wav'
fs, x = wavfile.read(input_file)
print('fs', fs)
print('x.shape', x.shape)
f, t, Sxx = signal.spectrogram(x, fs)
print('f.shape', f.shape)
print('t.shape', t.shape)
print('Sxx.shape', Sxx.shape)
plt.pcolormesh(t, f, Sxx)
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')
plt.savefig('spectrogram_scipy.png')
Run Code Online (Sandbox Code Playgroud)
我想使用我录制的音频样本在 Mozilla TTS 中创建自定义语音,但不知道如何开始。Mozilla TTS 项目有文档和教程,但我在将这些部分放在一起时遇到了麻烦——似乎缺少一些初学者需要知道的基本信息。
我有一些问题:
metadata.csv文件——我需要在那个文件中放入什么?我在配置文件中自定义了什么?scale_stats.npy文件——我如何生成它?