标签: sox

sox file.wav -r 10 file.dat

音频文件的样本包含什么？

当我运行命令"sox file.wav -r 10 file.dat"时,输出就像

; Sample Rate 10
; Channels 2
           0    0.00085449219   -0.0007019043
         0.1       0.01348877    -0.011260986
         0.2      0.015930176    -0.013214111
         0.3      0.014923096    -0.012390137
         ...      ...            ...

Run Code Online (Sandbox Code Playgroud)

我知道第一列是第二列和第三列代表2个通道的时间.

但我想知道通道值包含什么？

audio sox sample-rate

Pra*_*man

2010 12-20

4
推荐指数

1
解决办法

3335
查看次数

使用sox进行音频统计的说明

我有一堆音频文件，需要基于静音和使用SOX拆分每个文件。但是，我意识到有些文件的背景非常嘈杂，有些则没有，因此我无法使用单个参数集对所有进行分割的文件进行迭代。我试图找出如何通过嘈杂的背景将它们分开。以下是我从得到sox input1.flac -n stat和sox input2.flac -n stat

Samples read:          18207744
Length (seconds):    568.992000
Scaled by:         2147483647.0
Maximum amplitude:     0.999969
Minimum amplitude:    -1.000000
Midline amplitude:    -0.000015
Mean    norm:          0.031888
Mean    amplitude:    -0.000361
RMS     amplitude:     0.053763
Maximum delta:         0.858917
Minimum delta:         0.000000
Mean    delta:         0.018609
RMS     delta:         0.039249
Rough   frequency:         1859
Volume adjustment:        1.000

Run Code Online (Sandbox Code Playgroud)

和

Samples read:         198976896
Length (seconds):   6218.028000
Scaled by:         2147483647.0
Maximum amplitude:     0.999969
Minimum amplitude:    -1.000000
Midline amplitude:    -0.000015
Mean    norm:          0.156168
Mean …

Run Code Online (Sandbox Code Playgroud)

audio sox

Ngu*_*ong

lucky-day

4
推荐指数

1
解决办法

4342
查看次数

将 PCM 16bit LE 转换为 WAV

我正在尝试用 C 编写一个程序，将捕获的Raw 16kHz PCM 16 位文件转换为16 位 WAV。

我读过一些帖子，人们推荐使用libsox. 安装了它，现在我真的很难理解手册页。

到目前为止（通过阅读源代码中的示例）我已经发现structs：

sox_format_t
sox_signalinfo_t

大概可以用来描述我输入的数据。如果有必要，我也知道我正在处理多少信息（时间）？

一些指导表示赞赏！

c audio wav pcm sox

Maz*_*zze

lucky-day

3
推荐指数

1
解决办法

2212
查看次数

如何在Windows中为sox安装flac支持(flac库)

当我尝试处理我得到的flac文件时

"没有文件扩展名flac的处理程序"

错误.有没有办法在Windows中解决这个问题.

speech-recognition sox voice-recognition flac libsox

use*_*659

2014 05-01

3
推荐指数

1
解决办法

1666
查看次数

如何使用SoX库制作机器人或Dalek语音？

我想使用SoX库将语音转换为机器人语音（例如，星际争霸游戏的歌利亚语音）。

我在网络上找到了机器人语音的以下顺序，但并没有产生机器人语音。

过载10回波0.8 0.8 5 0.7回波0.8 0.7 6 0.7回波0.8 0.7 10 0.7回波0.8 0.7 12 0.7回波0.8 0.88 12 0.7回波0.8 0.88 30 0.7回波0.6 0.6 60 0.7

发出机器人声音需要什么效果？你能告诉我一系列的效果和选择吗？

提前致谢。

audio voice synthesizer sox

jon*_*hul

2018 05-22

3
推荐指数

1
解决办法

1676
查看次数

使用 SoX / FFmpeg 等从音频文件中修剪 N 个样本

有没有办法使用 SoX / FFmpeg 或类似方法从音频文件中修剪 N 个样本？

ffmpeg sox

Vas*_*kyi

2016 10-16

3
推荐指数

2
解决办法

1927
查看次数

拆分音频文件,但仅限暂停

我一直在玩sox并使用trim命令将整个音频分成n个部分(每个部分固定长度)应该相当简单.

然而,当我打算分割语音录音时,可能会发生一个简单的分裂将在一个单词的中间分裂.

有没有办法防止这种情况,并确保部件包含"整个单词"？

audio filesplitting sox

lei*_*ifg

lucky-day

3
推荐指数

1
解决办法

1382
查看次数

管道 sox 播放命令到标准输出

所以我目前正在尝试将我的麦克风输入从我的树莓派（rasbian）流式传输到某种网络流，以便稍后在我的手机上接收它。为了做到这一点，我使用arecord -D plughw:1,0 -f dat -r 44100 |顶部管道将声流从我的 USB 麦克风传输到标准输出，据我所知，它工作正常，但我需要声音大一点，这样我才能理解站在远处的人。

所以我通过管道将它传递给 sox play 命令，如下所示：

arecord -D plughw:1,0 -f dat -r 44100| play -t raw -b 16 -e signed -c 2 -v 7 -r 44100 - test.wav （test.wav 只是一些随机的 wav 文件 id 没有它就无法工作，并且 - 后面的 44100 和 test.wav 之间有一个空格，因为我认为 - 是一个单独的参数：

SPECIAL FILENAMES (infile, outfile): - Pipe/redirect input/output (stdin/stdout); may need -t -d, --default-device Use the default audio device (where available))

我发现通过使用 -v 参数可以增加音量。这会将录制的流播放到我连接到 raspberry pi 3 的扬声器。 …

linux audio pipe stream sox

spa*_*unk

2017 03-21

3
推荐指数

1
解决办法

1万
查看次数

在 scipy 中重现 sox 频谱图

例如，我有一个带有语音的 wav 文件。

我可以使用 sox 创建漂亮的频谱图可视化：

wget https://google.github.io/tacotron/publications/tacotron2/demos/romance_gt.wav
sox romance_gt.wav -n spectrogram -o spectrogram.png

Run Code Online (Sandbox Code Playgroud)

我怎样才能在Python中重现这个频谱图？

这是使用scipy.signal.spectrogram的示例

input_file = 'temp/romance_gt.wav'
fs, x = wavfile.read(input_file)
print('fs', fs)
print('x.shape', x.shape)

f, t, Sxx = signal.spectrogram(x, fs)
print('f.shape', f.shape)
print('t.shape', t.shape)
print('Sxx.shape', Sxx.shape)
plt.pcolormesh(t, f, Sxx)
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')
plt.savefig('spectrogram_scipy.png')

Run Code Online (Sandbox Code Playgroud)

但看起来有些参数不好或者有什么东西坏了：

python scipy sox spectrogram

mrg*_*oom

lucky-day

3
推荐指数

1
解决办法

1310
查看次数

如何在 Ubuntu 20.04 上开始使用 Mozilla TTS 训练自定义语音模型？

我想使用我录制的音频样本在 Mozilla TTS 中创建自定义语音，但不知道如何开始。Mozilla TTS 项目有文档和教程，但我在将这些部分放在一起时遇到了麻烦——似乎缺少一些初学者需要知道的基本信息。

我有一些问题：

我看到 Mozilla TTS 有一个 Docker 映像，但它的文档涵盖了创建语音，但没有提到培训。我可以使用 Docker 镜像进行训练吗？
如果我不能使用 Docker 镜像进行训练，我如何使用 Python 3 获得在我的系统上运行的 Mozilla TTS 的功能副本？我已尝试按照项目提供的命令进行操作，但出现依赖项错误、版本冲突或关于没有足够权限安装软件包的错误。
我需要什么信息来训练模型？我需要什么音频格式？我看到我需要一个metadata.csv文件——我需要在那个文件中放入什么？我在配置文件中自定义了什么？
大多数配置引用一个scale_stats.npy文件——我如何生成它？
我如何进行培训？

audio text-to-speech sox mozilla-deepspeech

Guy*_*ock

lucky-day

3
推荐指数

1
解决办法

2076
查看次数