在 Youtube 上,我可以下载视频的 CC 抄本,但抄本不包含标点符号。我怎样才能自动标点成绩单?
我有关于使用Java进行音乐转录的项目,事情是,我创建了一个记录声音并将其保存到WAV文件的applet,播放器应该只播放他/她想要转录的片段,之后我被卡住了在这一点上,我必须从保存的WAV文件中获取信息并使用此信息创建一个MIDI文件,并在创建MIDI文件后,我必须为它生成一个乐谱(乐谱),所有这些必须完成在Java中.
我到处寻找关于如何完成这些工作的明确解释,但我没有找到任何直接的东西:(因为我是Java的新手,我希望有人能帮我解决这个问题,我在编程时遇到的问题是:
在对正在读取的数据执行分段后,我也尝试过快速傅立叶变换,但我认为这绝对是在错误的方向:(
如果有人可以帮助我完成上面指定的主题,以及如何只用Java编程,那将非常感激:)
顺便说一句,该项目是:
玩家在钢琴上弹奏音符>>记录他的演奏>>玩家获得他演奏的分数.
是否有任何API可以获得单词的转录?不仅适用于英语,也适用于其他流行语言(西班牙语,中文等).
PS最好是基于网络的API,但如果没有,我们会考虑任何其他平台.
我试图确定html视频的TextTrack元素当前是显示还是隐藏.
我看了一下html规范,乍一看,texttracks.mode属性可以完美地工作:http://www.whatwg.org/specs/web-apps/current-work/multipage/the-video- element.html#文本轨道隐藏
我在谷歌浏览器版本35.0.1916.153中使用以下html和代码测试了此属性:
HTML:
<video>
<track id="en" kind="subtitles" src="transcript.vtt"></track>
<source src = "samplevideo.mp4">
</video>
Run Code Online (Sandbox Code Playgroud)
码:
$(video)[0].textTracks[0].mode
Run Code Online (Sandbox Code Playgroud)
最初,代码按预期返回"隐藏",并在点击视频播放器上的脚本按钮并重新运行代码后,返回"显示".
如果我在这些步骤之后关闭播放器并重新运行代码,尽管录像中隐藏了成绩单,它仍会返回"显示".
有没有更好的方法来检测html5视频播放器上的可见/不可见的成绩单状态?
我在 PowerShell 模块中有一个函数,它创建一个日志文件并使用该文件启动转录(见下文)。运行 PowerShell 脚本时,这非常有效并捕获所有输出。
运行调用批处理文件的 PowerShell 脚本时(我们在从 CMD > PowerShell 迁移时经常这样做),批处理文件输出显示在与 PowerShell 脚本相同的窗口中的控制台上,但转录日志文件仅显示 1 个空白调用批处理文件的行。
09:53:25 AM [Success] Zip file already up to date, no need to download!
09:53:25 AM [Note ] Calling 1.bat
10:07:55 AM [Note ] Calling 2.bat
Run Code Online (Sandbox Code Playgroud)
我从 .ps1 脚本调用批处理文件,仅使用与号“&”。
奇怪的是,有时批处理文件输出会被捕获在日志中(通常是调用的第一个批处理文件)。但是我找不到这些文件的任何特别之处。
同样奇怪的是,有时我们调用外部程序(WinSCP),而这些命令的输出有时只显示在脚本中。可能相关。
作为参考,这里是我用来创建流程记录的函数。
Function Log_Begin()
{
<#
.SYNOPSIS
Starts the process for logging a PowerShell script.
.DESCRIPTION
Starts the process for logging a PowerShell script. This means that whenever
this function is …
Run Code Online (Sandbox Code Playgroud) 我们要求将阿拉伯语文本音译为拉丁字符(不带变音符号)并将其显示给用户.
我们目前正在使用IBM ICU4j.API不能很好地将阿拉伯文本转换成适当的可读拉丁字符.请参考以下示例:
例
阿拉伯文:
صدامحسينالتكريتي
谷歌的音译输出
: Sadaam Hussein al-tikriti
ICU4J的音译输出
: ?d?m ?syn ?ltkryty
我们如何提高ICU4j库的音译输出?
ICU4J为我们提供了编写我们自己的规则的选项,但我们目前陷入困境,因为我们团队中没有人知道阿拉伯语,并且无法找到任何可以遵循的正确标准.
从开始记录:
Start-Transcript cmdlet 将全部或部分 PowerShell 会话的记录创建到文本文件中。脚本包括用户键入的所有命令以及控制台上显示的所有输出。
代码
cls
$global:scriptPath = Split-Path $script:MyInvocation.MyCommand.Path
$global:scriptName = $global:scriptPathAndName.Replace(($global:scriptPath + "\"),"")
$global:scriptNameNoExt = $global:scriptName.Replace(".ps1","")
Start-Transcript -LiteralPath ($global:scriptPath + "\" + (get-date -f "yyyy-MM-dd_HH-mm-ss") + "_" + $global:scriptNameNoExt + ".log")
foreach ($n in 1..3)
{
write-host -NoNewline ("test line " + $n + " ")
}
write-host
Stop-Transcript
Run Code Online (Sandbox Code Playgroud)
控制台输出 - 按预期显示
Transcript started, output file is C:\temp\2019-02-06_07-13-43_test.log
test line 1 test line 2 test line 3
Transcript stopped, output file is C:\temp\2019-02-06_07-13-43_test.log
Run Code Online (Sandbox Code Playgroud)
文字内容 …
假设每个参与者都同意 Skype 通话的录音和转录,是否有一种方法可以转录会议(实时或离线或两者兼而有之),以便生成文本记录,其中每个口头文本都正确归属于发言者。然后可以将转录本输入到任何类型的搜索或 NLP 算法中。
“自动转录 Skype”的 Google 搜索前 3 名指的是使手动转录变得更容易的应用程序:
(1) http://www.dummies.com/how-to/content/how-to-convert-skype-audio-to-text-with-transcribe.html
(2) http://ask.metafilter.com/231400/How-to-record-and-transcribe-Skype-conversation
(3) https://www.ttetranscripts.com/blog/how-to-record-and-transcribe-your-skype-conversations
虽然录制音频并将其发送到语音转文本引擎很简单,但我怀疑它的质量是否会非常高,因为最好的结果通常是依赖于说话者的模型(否则我们就不必花时间来训练龙自然言)。
但是,在我们选择说话者相关转录模型之前,我们需要知道音频的哪个片段属于哪个说话者。有两种方法可以解决这个问题:
有一种简单的方法可以检索来自每个参与者的所有音频,例如,您只需在通话期间记录每个扬声器麦克风的所有音频,而无需进行任何分段。
如果第一个选项在某种程度上不可行或令人望而却步,我们必须使用说话人分类算法,该算法将音频分割成 N 个簇/说话人(大多数算法允许知道音频中有多少个说话人,但有些算法可以自己解决这个问题)。对于通话过程中的实时转录,我想我们需要一些奇特的实时说话者分类算法。
无论如何,一旦解决了分割问题,每个参与者都会拥有经过训练的说话者模型,然后将其应用于他们的音频部分。一天结束时,每个人都会得到一份不错的对话记录,稍后我们可以做一些花哨的事情,比如主题分析,或者也许老大哥想要筛选每个人的项目会议,而不必听几个小时的音频。
我的问题是,在实践中实施这一点的方法是什么?
Google Speech API 的SingleUtterance
工作原理是什么?根据文档,这是谷歌确定说话者何时说出单个话语的方式。我明白它的作用,但我想知道如何?API 是否只是等待一段时间的“无语”音频?如果是这样,无声音频持续多长时间会触发话语结束?
它是否有其他类型的 AI 算法可以帮助确定某人何时停止说话?
谢谢
我正在尝试将 mp3 文件转换为文本,但我的代码返回下面概述的错误。任何帮助表示赞赏!
这是一个示例 mp3 文件。以下是我尝试过的:
import speech_recognition as sr
print(sr.__version__)
r = sr.Recognizer()
file_audio = sr.AudioFile(r"C:\Users\Andrew\Podcast.mp3")
with file_audio as source:
audio_text = r.record(source)
print(type(audio_text))
print(r.recognize_google(audio_text))
Run Code Online (Sandbox Code Playgroud)
我得到的完整错误。似乎:
Error: file does not start with RIFF id
Run Code Online (Sandbox Code Playgroud)
感谢您的帮助!
python speech-recognition speech-to-text transcription python-3.x
如何将 PowerShell 窗口(输入和输出)中发生的所有内容自动重定向到文件?我的意思不是单个命令,而是我想要一个记录器之类的东西,它可以捕获所有内容并将其记录到本地文件中,以便我拥有在 powershell 窗口中完成的事情的历史记录。
我想使用 Azure 语音服务批量转录 API来创建音频文件的转录。我已经成功使用语音服务 SDK(适用于 Node.js),但有兴趣尝试 v3.1 预览版 api ( displayFormWordLevelTimestampsEnabled
) 中提供的较新功能之一,所以我想我必须使用REST API 服务来执行此操作。
总的来说,我的问题是,无论我为Create Transcript
API提供什么输入contentUrls
,我总是会得到相同的错误:
"error": {
"code": "InvalidData",
"message": "The recordings URI contains invalid data."
}
Run Code Online (Sandbox Code Playgroud)
经过一番挖掘后,我通过 Azure 门户找到了一些提示,可用于以sox
请求的特定格式处理音频文件的转码。
他们在门户文档中提到的具体格式显示:如果您使用 REST API,请确保它使用此表中的格式之一:
格式 | 编解码器 | 比特率 | 采样率 |
---|---|---|---|
音频格式 | 相变材料 | 256kbps | 16 kHz,单声道 |
奥格 | 奥普斯 | 256kbps | 16 kHz,单声道 |
sox 的具体命令是:
活动 | SoX命令 |
---|---|
检查音频文件格式。 | 红袜--我 |
将音频文件转换为单声道、16 位、16 KHz。 | sox -b 16 -e 有符号整数 -c 1 -r 16k -t wav .wav |
我通过第二个命令运行我的 mp3 …
transcription ×12
powershell ×3
java ×2
logging ×2
nlp ×2
api ×1
azure-speech ×1
batch-file ×1
html ×1
icu4j ×1
javascript ×1
jquery ×1
module ×1
newline ×1
python ×1
python-3.x ×1
skype ×1
video ×1
youtube ×1