将 Mbrola Voices 配置为 meSpeak 的正确方法是什么?
我已经尝试了通常的配置方法。前任:
{
"voice_id":"us-mbrola-1",
"dict_id":"en_dict",
"dict":"~Base64 String~",
"voice":"name us-mbrola-1\nlanguage en-us\nlanguage en 8\ngender female\nphonemes en-us\ndictrules 3 6\nstressLength 170 135 205 205 0 0 245 275\npitch 140 220\nmbrola us1 us_phtrans",
"voice_encoding":"text"
}
Run Code Online (Sandbox Code Playgroud)
我收到错误“未捕获的类型错误:非法调用”。请帮我正确配置它。
我正在为我的应用程序添加语音提示并在iOS 7中测试AVSpeechUtterance,但默认语音速率非常快.最低语速更容易理解.但最大音量值1太安静了!我在iPhone 4上测试了它,音量一直在变高.某些东西一定是错的,否则它将如何可用.
AVSpeechSynthesizer *synthesizer = [[AVSpeechSynthesizer alloc]init];
NSString *mystring = [NSString stringWithFormat:@"Talk String Here %@",myObject.name];
AVSpeechUtterance *utterance = [AVSpeechUtterance speechUtteranceWithString:mystring];
[utterance setRate:AVSpeechUtteranceMinimumSpeechRate];
[utterance setVolume:1];
[synthesizer speakUtterance:utterance];
Run Code Online (Sandbox Code Playgroud) 我正在制作一个语言学习网络应用程序,当你将鼠标悬停在单词上时,它会为你发音.我想访问Google Translate API的母语翻译.
我找到了这个资源,它提供http://translate.google.com/translate_tts了基本URL,tl目标语言和q查询字符串.
当我在浏览器中访问它时,这非常有用, http://translate.google.com/translate_tts?tl = zh-CN&q =你好,但我的应用的任何httprequests都会返回403 Forbidden错误.
localhost:~me $ wget" http://translate.google.com/translate_tts?ie=UTF-8&tl=en&q=hello+world "--2015-06-02 11:02:06-- http://翻译.google.com/translate_tts?ie = UTF-8&tl = en&q = hello + world 解析translate.google.com ... 173.194.123.38,173.194.123.36,173.194.123.32,...连接到translate.google.com | 173.194.123.38 |:80 ...连接.发送HTTP请求,等待响应... 403 Forbidden 2015-06-02 11:02:07错误403:禁止.
是否有一个正式的Google API,用于与传统Google Translate API的付款计划相关联的文字转语音,我还没有找到?或者是否有办法以get某种方式播放此音频?
javascript google-api text-to-speech google-translate http-status-code-403
无法在任何地方找到关于irf文件和tts(文本到语音)的任何信息,更不用说与iOS有关了.
虽然根据一些中国网站,它似乎在Android应用程序上用于GPS"音频".
那么......关于如何在iOS上使用irf文件作为音频数据库的任何想法?
-------------------------------------------
编辑:
github有一个帖子booxsdk/code/src/tts/aisound/,其中包含有关如何使用的C和C++文件:
这应该是如何让它在iOS上工作的一个重要线索,对于比我更大脑的人来说.
-------------------------------------------
编辑2:
样本C代码:
ivTTSStandardAPISample.c
// ivTTSStandardAPISample.c : Defines the entry point for the console application.
//
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include "ivTTS.h"
/* constant for TTS heap size */
//#define ivTTS_HEAP_SIZE 38000 /* ahh */
#define ivTTS_HEAP_SIZE 58000 /* ohh */
/* constant for cache allocation */
#define ivTTS_CACHE_SIZE 512
#define ivTTS_CACHE_COUNT 1024
#define ivTTS_CACHE_EXT 8
/* Message */
ivTTSErrID DoMessage()
{
/* do …Run Code Online (Sandbox Code Playgroud) 在以下场景中观察到 TTS 初始化错误,这太随机了。
已安装 TTS 引擎,存在语音集,并且可以从辅助功能选项播放示例 tts。
TTS 初始化在之前初始化和播放的同一设备上随机失败。
在不同的设备(一加、华硕、三星)和各种 Android 操作系统版本中都观察到了这个问题。
代码片段:
公共类 TTSHandler 实现 OnInitListener {
public EPUBReader context;
private TextToSpeech tts;
private HashMap<String, String> ttsMap;
private boolean isTtsPlaying = false,shouldResume = false,initialised = false,
ttsModeEnabled = false;
private String textToRead;
private GoogleVersionPreferences mSharedPreferences;
private AudioManager mAudioManager;
@SuppressWarnings("deprecation")
public TTSHandler(EPUBReader context){
this.context = context;
tts = new TextToSpeech(context,this);
}
@Override
public void onInit(int status) {
Log.d("TTS", "onInit called");
if(status == TextToSpeech.SUCCESS){
initialised = true;
Log.d("TTS", "initialised success: status …Run Code Online (Sandbox Code Playgroud) 我安装了一些带有语音选项的英语语言包(美国、英国和加拿大),我可以在 Windows 10 设置 -> 语音中访问它们,但它们没有显示在控制面板提供的文本到语音选项中,我不能使用应用程序的声音!
我只能使用默认的声音,即 David 和 Zira!
知道如何使用其他声音吗?
经过长期研究,我创建了最佳的电子书 (Epub) 阅读器。作为主要设备,我基本上使用 Windows 10 平板电脑和 Microsoft Edge 作为(Epub)阅读器。
这太棒了,太神奇了。但是......我想更好地控制“朗读”设置。包括:
有谁知道如何做到这一点?(没有找到任何有关相关注册表项或设置文件的文档)
我想暂停/等待 for 循环,直到window.speechSynthesis.speak(audio)完成阅读文本,然后再进行下一次迭代。我有以下代码:
var all = "Oak is strong and also gives shade \n \
Cats and dogs each hate the other \n \
The pipe began to rust while new \n Bye."
sentences = all.split('\n')
for (i = 0; i < sentences.length; i++) {
sentence = sentences[i]
console.log(sentences[i]);
audio = new SpeechSynthesisUtterance(sentence)
window.speechSynthesis.speak(audio)
}
Run Code Online (Sandbox Code Playgroud)
现在我想要的是,每个sentences[i]打印一次。在完成sentences[i]之前不会打印 下一个window.speechSynthesis.speak(audio),一旦语音完成,sentences[i] 则将打印下一次迭代。
那么我怎样才能让循环等到一个函数没有完成呢?
注意:我可以让它等待一个恒定的时间,但我想要一个动态的等待,即等待时间应该window.speechSynthesis.speak(audio)与完成文本所需的时间一样长。
当尝试使用 pyttsx3 时,我只能使用英语语音。我也希望能够使用荷兰语。
我已经在 Windows 设置菜单中安装了文本转语音语言包。但我仍然只能使用默认的英文语音。
我怎样才能解决这个问题?
我正在尝试在我的计算机上使用 耳语 AI。我有一个 NVIDIA GPU RTX 2060,安装了 CUDA 和 FFMPEG。
我正在运行这段代码:
import whisper
model = whisper.load_model("medium")
result = model.transcribe("venv/files/test1.mp3")
print(result["text"])
Run Code Online (Sandbox Code Playgroud)
并有问题:
whisper\transcribe.py:114: UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn("FP16 is not supported on CPU; using FP32 instead")
Run Code Online (Sandbox Code Playgroud)
我不明白为什么不支持 FP16,因为我有一个很好的 GPU 并且安装了所有东西。任何帮助,将不胜感激。谢谢。
我安装了所有的要求,我期望耳语 AI 会使用 GPU
python speech-recognition text-to-speech openai-api openai-whisper
text-to-speech ×10
javascript ×3
ios ×2
python ×2
android ×1
audio ×1
espeak ×1
google-api ×1
ios7 ×1
objective-c ×1
openai-api ×1
pyttsx3 ×1
wait ×1
windows-10 ×1