标签: sox

sox file.wav -r 10 file.dat

音频文件的样本包含什么?

当我运行命令"sox file.wav -r 10 file.dat"时,输出就像

; Sample Rate 10
; Channels 2
           0    0.00085449219   -0.0007019043
         0.1       0.01348877    -0.011260986
         0.2      0.015930176    -0.013214111
         0.3      0.014923096    -0.012390137
         ...      ...            ...
Run Code Online (Sandbox Code Playgroud)

我知道第一列是第二列和第三列代表2个通道的时间.

但我想知道通道值包含什么?

audio sox sample-rate

4
推荐指数
1
解决办法
3335
查看次数

使用sox进行音频统计的说明

我有一堆音频文件,需要基于静音和使用SOX拆分每个文件。但是,我意识到有些文件的背景非常嘈杂,有些则没有,因此我无法使用单个参数集对所有进行分割的文件进行迭代。我试图找出如何通过嘈杂的背景将它们分开。以下是我从得到sox input1.flac -n statsox input2.flac -n stat

Samples read:          18207744
Length (seconds):    568.992000
Scaled by:         2147483647.0
Maximum amplitude:     0.999969
Minimum amplitude:    -1.000000
Midline amplitude:    -0.000015
Mean    norm:          0.031888
Mean    amplitude:    -0.000361
RMS     amplitude:     0.053763
Maximum delta:         0.858917
Minimum delta:         0.000000
Mean    delta:         0.018609
RMS     delta:         0.039249
Rough   frequency:         1859
Volume adjustment:        1.000
Run Code Online (Sandbox Code Playgroud)

Samples read:         198976896
Length (seconds):   6218.028000
Scaled by:         2147483647.0
Maximum amplitude:     0.999969
Minimum amplitude:    -1.000000
Midline amplitude:    -0.000015
Mean    norm:          0.156168
Mean …
Run Code Online (Sandbox Code Playgroud)

audio sox

4
推荐指数
1
解决办法
4342
查看次数

将 PCM 16bit LE 转换为 WAV

我正在尝试用 C 编写一个程序,将捕获的Raw 16kHz PCM 16 位文件转换为16 位 WAV

我读过一些帖子,人们推荐使用libsox. 安装了它,现在我真的很难理解手册页

到目前为止(通过阅读源代码中的示例)我已经发现structs

  • sox_format_t
  • sox_signalinfo_t

大概可以用来描述我输入的数据。如果有必要,我也知道我正在处理多少信息(时间)?

一些指导表示赞赏!

c audio wav pcm sox

3
推荐指数
1
解决办法
2212
查看次数

如何在Windows中为sox安装flac支持(flac库)

当我尝试处理我得到的flac文件时

"没有文件扩展名flac的处理程序"

错误.有没有办法在Windows中解决这个问题.

speech-recognition sox voice-recognition flac libsox

3
推荐指数
1
解决办法
1666
查看次数

如何使用SoX库制作机器人或Dalek语音?

我想使用SoX库将语音转换为机器人语音(例如,星际争霸游戏的歌利亚语音)。

我在网络上找到了机器人语音的以下顺序,但并没有产生机器人语音。

过载10回波0.8 0.8 5 0.7回波0.8 0.7 6 0.7回波0.8 0.7 10 0.7回波0.8 0.7 12 0.7回波0.8 0.88 12 0.7回波0.8 0.88 30 0.7回波0.6 0.6 60 0.7

发出机器人声音需要什么效果?你能告诉我一系列的效果和选择吗?

提前致谢。

audio voice synthesizer sox

3
推荐指数
1
解决办法
1676
查看次数

使用 SoX / FFmpeg 等从音频文件中修剪 N 个样本

有没有办法使用 SoX / FFmpeg 或类似方法从音频文件中修剪 N 个样本?

ffmpeg sox

3
推荐指数
2
解决办法
1927
查看次数

拆分音频文件,但仅限暂停

我一直在玩sox并使用trim命令将整个音频分成n个部分(每个部分固定长度)应该相当简单.

然而,当我打算分割语音录音时,可能会发生一个简单的分裂将在一个单词的中间分裂.

有没有办法防止这种情况,并确保部件包含"整个单词"?

audio filesplitting sox

3
推荐指数
1
解决办法
1382
查看次数

管道 sox 播放命令到标准输出

所以我目前正在尝试将我的麦克风输入从我的树莓派(rasbian)流式传输到某种网络流,以便稍后在我的手机上接收它。为了做到这一点,我使用arecord -D plughw:1,0 -f dat -r 44100 |顶部管道将声流从我的 USB 麦克风传输到标准输出,据我所知,它工作正常,但我需要声音大一点,这样我才能理解站在远处的人。

所以我通过管道将它传递给 sox play 命令,如下所示:

arecord -D plughw:1,0 -f dat -r 44100| play -t raw -b 16 -e signed -c 2 -v 7 -r 44100 - test.wav (test.wav 只是一些随机的 wav 文件 id 没有它就无法工作,并且 - 后面的 44100 和 test.wav 之间有一个空格,因为我认为 - 是一个单独的参数:

SPECIAL FILENAMES (infile, outfile): - Pipe/redirect input/output (stdin/stdout); may need -t -d, --default-device Use the default audio device (where available))

我发现通过使用 -v 参数可以增加音量。这会将录制的流播放到我连接到 raspberry pi 3 的扬声器。 …

linux audio pipe stream sox

3
推荐指数
1
解决办法
1万
查看次数

在 scipy 中重现 sox 频谱图

例如,我有一个带有语音的 wav 文件。

我可以使用 sox 创建漂亮的频谱图可视化:

wget https://google.github.io/tacotron/publications/tacotron2/demos/romance_gt.wav
sox romance_gt.wav -n spectrogram -o spectrogram.png
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

我怎样才能在Python中重现这个频谱图?

这是使用scipy.signal.spectrogram的示例

input_file = 'temp/romance_gt.wav'
fs, x = wavfile.read(input_file)
print('fs', fs)
print('x.shape', x.shape)

f, t, Sxx = signal.spectrogram(x, fs)
print('f.shape', f.shape)
print('t.shape', t.shape)
print('Sxx.shape', Sxx.shape)
plt.pcolormesh(t, f, Sxx)
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')
plt.savefig('spectrogram_scipy.png')
Run Code Online (Sandbox Code Playgroud)

但看起来有些参数不好或者有什么东西坏了: 在此输入图像描述

python scipy sox spectrogram

3
推荐指数
1
解决办法
1310
查看次数

如何在 Ubuntu 20.04 上开始使用 Mozilla TTS 训练自定义语音模型?

我想使用我录制的音频样本在 Mozilla TTS 中创建自定义语音,但不知道如何开始。Mozilla TTS 项目有文档和教程,但我在将这些部分放在一起时遇到了麻烦——似乎缺少一些初学者需要知道的基本信息。

我有一些问题:

  1. 我看到 Mozilla TTS 有一个 Docker 映像,但它的文档涵盖了创建语音,但没有提到培训。我可以使用 Docker 镜像进行训练吗?
  2. 如果我不能使用 Docker 镜像进行训练,我如何使用 Python 3 获得在我的系统上运行的 Mozilla TTS 的功能副本?我已尝试按照项目提供的命令进行操作,但出现依赖项错误、版本冲突或关于没有足够权限安装软件包的错误。
  3. 我需要什么信息来训练模型?我需要什么音频格式?我看到我需要一个metadata.csv文件——我需要在那个文件中放入什么?我在配置文件中自定义了什么?
  4. 大多数配置引用一个scale_stats.npy文件——我如何生成它?
  5. 我如何进行培训?

audio text-to-speech sox mozilla-deepspeech

3
推荐指数
1
解决办法
2076
查看次数