自然声音文本到语音?

I H*_*ntu 102 software-recommendation text-to-speech

我正在为 Ubuntu 寻找一些易于安装的文本转语音软件,听起来很自然。我已经安装了FestivalGespeaker等,但没有什么听起来很自然。一切都非常综合且难以理解。

有什么建议吗?

小智 59

SVOX pico2wave

sudo apt install libttspico-utils
Run Code Online (Sandbox Code Playgroud)

一个非常简约的 TTS,比 espeak 或 mbrola 听起来更好(在我看来)。这里有一些信息。

我不明白为什么 pico2wave 与 espeak 或 mbrola 相比很少被讨论。它很小,但听起来非常好(自然)。无需修改,您将听到自然的女性声音。

而且……与 Mbrola 相比,它可以识别单位并以正确的方式说话!
例如:

  • 2°C ? 两度
  • 2m ? 两米
  • 2公斤?两公斤

安装后我在脚本中使用它:

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav
Run Code Online (Sandbox Code Playgroud)

然后使用所需的文本运行它:

<scriptname>.sh "hello world"
Run Code Online (Sandbox Code Playgroud)

或读取整个文件的内容:

<scriptname>.sh "$(cat <filename>)"
Run Code Online (Sandbox Code Playgroud)

这就是在 Ubuntu 上拥有一个轻量级、稳定的 TTS 的全部内容。

  • `pico2wave` 包含在最新版本的 ubuntu 中的 `libttspico-utils` 包中。@CarlosEugenioThompsonPinzón `cat &lt;文件名&gt; | xargs -I foo -0 pico2wave -w blah.wav foo` (16认同)
  • 据我所知,它只使用 cli 参数作为输入。有什么办法可以让 pico2wave 从文件名中读取文本? (2认同)
  • @CarlosEugenioThompsonPinzón `pico2wave -w a.wav "$(input.txt)"` =)。同意这个 CLI 接口是糟糕的设计:与绝大多数 CLI 不同,并且可能达到 [OS 最大 CLI arg 长度](http://stackoverflow.com/questions/6846263/maximum-length-of-command-line -argument-that-c​​an-be-passed-to-sqlplus-from-lin)。 (2认同)

Jon*_*tte 25

Pico 和 espeak 很有趣,也很容易上班,但它们并不是那么好。默认的节日声音也不是那么好。然而,Festival 是一个基于方案的语音框架,许多研究人员已经在其中构建了更好的插件语音。您可以轻松地超越现有 Ubuntu 上的 pico2wave 质量,因为其中一种声音可以作为现成的软件包使用。

要让 Festival 听起来自然,请执行以下操作:

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")
Run Code Online (Sandbox Code Playgroud)

您可以从命令行使用-b(或--batch) 并将每个命令放入单引号中:

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'
Run Code Online (Sandbox Code Playgroud)

您可以从 Nitech 存储库中获得其他非常好的声音,但安装它们很挑剔,并且默认路径已更改,因此可能需要手动编辑捆绑方案文件中的文件名引用才能在股票 Ubuntu 上工作。

  • 顺便说一句,在 Ubuntu 16.04 中,这个包似乎丢失了。您可以从 Debian 下载并安装 deb,它会正常工作:https://packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Downloads/festvox-us-slt- hts_0.2010.10.25-2_all.deb (3认同)

I H*_*ntu 22

说吧!

我相信我已经使用名为“SpeakIt”的 Google Chrome 扩展程序免费找到了最好的 TTS 软件。这仅适用于我在 Ubuntu 上的 Chrome 浏览器。由于某种原因,它不适用于 Chromium。SpeakIt 带有两个女声,与其他所有声音相比,它们听起来都非常逼真。如果您使用“TTS”作为查询在 Chrome 网上应用店中搜索,Chrome 扩展程序中至少会列出四个男声和女声。

用法:用于网站。您突出显示要阅读的文本,然后右键单击并“SpeakIt”或单击停靠在 Chrome 顶部栏上的 SpeakIt 图标。


Firefox 用户还有两个选择。在 Firefox 插件中,搜索 TTS,您应该会找到“Click Speak”和“Text to Voice”。声音不如 Chrome SpeakIt 的声音好,但绝对可用。

SpeakIt 扩展程序使用 iSpeech 技术,该站点每年只需 20 美元,即可将文本转换为 MP3 音频文件。您可以输入文本、URL、RSS 提要以及 TXT、DOC 和 PDF 等文档并输出为 MP3。您可以制作播客,嵌入音频等。这是一个链接,以及他们的音频示例(不知道链接会持续多久)。

  • 不幸的是,没有一个浏览器选项适用于 PDF 文件。你遇到过这样的吗?我希望能够从 PDF 中选择要读取的段落(即不必将位粘贴到终端或其他) (4认同)

Glu*_*ate 14

简单的 Google™ TTS

项目页面更新2016 年):该项目目前无人维护,在可预见的未来仍将如此


由于缺乏更好的替代方案,我编写了一个bash 脚本该脚本与 Michal Fapso 的 perl 脚本接口,通过谷歌翻译提供 TTS。从项目描述:

目的是通过谷歌的语音合成系统提供一个易于使用的文本到语音输出界面。如果找不到 Internet 连接,使用 pico2wave 的后备选项会自动提供 TTS 合成。

就目前而言,包装器支持从标准输入、纯文本文件和 X 选择(突出显示的文本)中读取。

主要特点是:

  • 通过谷歌翻译在线TTS合成
  • 通过 pico2wave 进行离线 TTS 合成
  • 支持多种不同语言
  • 可以从 CLI、文本文件和突出显示的文本中读取
  • 支持阅读具有固定格式的突出显示文本(例如 PDF 文件)

安装和使用记录在项目页面上

如果你试一试,我会很高兴的。欢迎错误报告和任何其他反馈

  • 这不再被维护。 (6认同)

Pab*_*chi 11

派珀

一种快速的本地神经文本转语音系统。检查站点项目的安装、语音下载和使用情况。例如:

echo 'Welcome to the world of speech synthesis!' | \
  ./piper --model blizzard_lessac-medium.onnx --output_file welcome.wav
Run Code Online (Sandbox Code Playgroud)

谷歌文本转语音

gTTS,一个 Python 库和 CLI 工具,用于与 Google Translate 的文本转语音 API 交互。将语音mp3数据写入文件、类似文件的对象(字节串)以进行进一步的音频操作,或stdout.

缺点:仅限 CLI。需要在线,因为它需要向 Google 公共开放端点请求。

sudo -H pip install gTTS  # Install
Run Code Online (Sandbox Code Playgroud)

用法

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -
Run Code Online (Sandbox Code Playgroud)

文档和更多示例

其他的

有些已经提到了


小智 10

对于高质量的 Ubuntu 文本到语音,我一直在寻找高低。空无一人。我的声带瘫痪了,所以我需要 TTS 为我的Ubuntu 视频添加语音指令。您可以在这里获得商业高质量的 Linux 文本到语音软件。只是真的很贵。我最终以 40 美元的价格购买了适用于 Windows 的 Natural Reader(在 Wine 下的 Ubuntu 中不起作用)。也许稍后我会得到 Linux 一个。


小智 6

我一直在研究最好的声音和易于调整的文本到语音的声音。以下是我认为按音质排序前 5 名的产品清单。大多数与这些产品相关的网站都有一个交互式演示,让您可以自己做出决定。

  1. 新语音
  2. 沃纳
  3. 阿卡佩拉
  4. AT&T 自然之声
  5. CereProc 语音

  • 有适用于 linux 的吗?我不这么认为 (3认同)

raz*_*zor 5

我发现音乐节上 Nitech HTS 的声音非常自然,比我听到的任何其他声音都令人欣慰。请参阅此链接,了解如何使用节日设置 Nitech 和其他声音。我还没有找到一个好的 gui 可以用来配置这些声音,但通过 Festival.scm 设置它们仍然有效。那个帖子很旧了,你可能想使用“locate Festival”命令找到实际的安装目录

  • 是的,Nitech 的音色比其他 Festival 音色(CMU 的音色除外,它们也非常好)要高得多。可惜它们很难安装。有一个很好的 CMU 语音在 Ubunut 中有一个默认包,它被称为 cmu_us_slt_arctic_hts,并在包 festvox-us-slt-hts 中。它比 pico 或 espeak 好得多! (2认同)

leo*_*rbo 5

将 SVOX 工具 (pico) 与 LibreOffice 结合使用:

SVOX (pico) 工具易于安装并在 Ubuntu 中带来高质量的声音。安装它:

sudo apt-get install libttspico0 libttspico-utils libttspico-data
Run Code Online (Sandbox Code Playgroud)

您可以通过安装“阅读文本”扩展程序将 LibreOffice 与 SVOX (pico) 工具结合使用,并获得此优秀 TTS 软件的“GUI”:

使用工具 - 附加组件 - 读取选择...设置读取文本扩展的选项。使用/usr/bin/python作为外部程序。选择包含令牌(PICO_READ_TEXT_PY)的命令行选项,您可能想尝试其中的一些。

现在,您只需在 LO Writer、Calc、Impress 或 Draw 中选择一些文本,然后单击作为工具栏添加的图标(带有气球的笑脸)。