标签: transcription

如何标点YouTube成绩单?

在 Youtube 上,我可以下载视频的 CC 抄本,但抄本不包含标点符号。我怎样才能自动标点成绩单?

youtube transcription closed-captions

10
推荐指数
3
解决办法
545
查看次数

Java中Wav文件的音乐转录

我有关于使用Java进行音乐转录的项目,事情是,我创建了一个记录声音并将其保存到WAV文件的applet,播放器应该只播放他/她想要转录的片段,之后我被卡住了在这一点上,我必须从保存的WAV文件中获取信息并使用此信息创建一个MIDI文件,并在创建MIDI文件后,我必须为它生成一个乐谱(乐谱),所有这些必须完成在Java中.

我到处寻找关于如何完成这些工作的明确解释,但我没有找到任何直接的东西:(因为我是Java的新手,我希望有人能帮我解决这个问题,我在编程时遇到的问题是:

  1. 获取有关在WAV文件中播放的音符的信息.
  2. 知道笔记.
  3. 创建一个等同于WAV文件的MIDI文件.
  4. 从MIDI文件生成SCORE.

在对正在读取的数据执行分段后,我也尝试过快速傅立叶变换,但我认为这绝对是在错误的方向:(

如果有人可以帮助我完成上面指定的主题,以及如何只用Java编程,那将非常感激:)

顺便说一句,该项目是:
玩家在钢琴上弹奏音符>>记录他的演奏>>玩家获得他演奏的分数.

java pitch-tracking transcription

8
推荐指数
1
解决办法
3087
查看次数

转录API

是否有任何API可以获得单词的转录?不仅适用于英语,也适用于其他流行语言(西班牙语,中文等).

PS最好是基于网络的API,但如果没有,我们会考虑任何其他平台.

api transcription

8
推荐指数
0
解决办法
7462
查看次数

跟踪HTML5视频隐藏字幕可见性状态

我试图确定html视频的TextTrack元素当前是显示还是隐藏.

我看了一下html规范,乍一看,texttracks.mode属性可以完美地工作:http://www.whatwg.org/specs/web-apps/current-work/multipage/the-video- element.html#文本轨道隐藏

我在谷歌浏览器版本35.0.1916.153中使用以下html和代码测试了此属性:

HTML:

<video>
    <track id="en" kind="subtitles" src="transcript.vtt"></track>
    <source src = "samplevideo.mp4">
</video>
Run Code Online (Sandbox Code Playgroud)

码:

$(video)[0].textTracks[0].mode
Run Code Online (Sandbox Code Playgroud)

最初,代码按预期返回"隐藏",并在点击视频播放器上的脚本按钮并重新运行代码后,返回"显示".

如果我在这些步骤之后关闭播放器并重新运行代码,尽管录像中隐藏了成绩单,它仍会返回"显示".

有没有更好的方法来检测html5视频播放器上的可见/不可见的成绩单状态?

html javascript video jquery transcription

6
推荐指数
1
解决办法
974
查看次数

开始记录和记录批处理文件输出

我在 PowerShell 模块中有一个函数,它创建一个日志文件并使用该文件启动转录(见下文)。运行 PowerShell 脚本时,这非常有效并捕获所有输出。

运行调用批处理文件的 PowerShell 脚本时(我们在从 CMD > PowerShell 迁移时经常这样做),批处理文件输出显示在与 PowerShell 脚本相同的窗口中的控制台上,但转录日志文件仅显示 1 个空白调用批处理文件的行。

09:53:25 AM [Success] Zip file already up to date, no need to download!
09:53:25 AM [Note   ] Calling 1.bat

10:07:55 AM [Note   ] Calling 2.bat
Run Code Online (Sandbox Code Playgroud)

我从 .ps1 脚本调用批处理文件,仅使用与号“&”。

奇怪的是,有时批处理文件输出被捕获在日志中(通常是调用的第一个批处理文件)。但是我找不到这些文件的任何特别之处。

同样奇怪的是,有时我们调用外部程序(WinSCP),而这些命令的输出有时只显示在脚本中。可能相关。

作为参考,这里是我用来创建流程记录的函数。

Function Log_Begin()
{
    <#
    .SYNOPSIS
    Starts the process for logging a PowerShell script.
    .DESCRIPTION
    Starts the process for logging a PowerShell script. This means that whenever
    this function is …
Run Code Online (Sandbox Code Playgroud)

powershell logging module batch-file transcription

6
推荐指数
0
解决办法
1979
查看次数

应该使用哪种罗马化标准来改进阿拉伯语 - 拉丁语的ICU4j音译?

我们要求将阿拉伯语文本音译为拉丁字符(不带变音符号)并将其显示给用户.

我们目前正在使用IBM ICU4j.API不能很好地将阿拉伯文本转换成适当的可读拉丁字符.请参考以下示例:

  • 阿拉伯文:

    صدامحسينالتكريتي

  • 谷歌的音译输出

    : Sadaam Hussein al-tikriti

  • ICU4J的音译输出

    : ?d?m ?syn ?ltkryty

我们如何提高ICU4j库的音译输出?

ICU4J为我们提供了编写我们自己的规则的选项,但我们目前陷入困境,因为我们团队中没有人知道阿拉伯语,并且无法找到任何可以遵循的正确标准.

java nlp transliteration transcription icu4j

6
推荐指数
1
解决办法
309
查看次数

为什么即使我使用 Write-Host -NoNewline,“Start-Transcript” cmdlet 也会插入换行符?

开始记录

Start-Transcript cmdlet 将全部或部分 PowerShell 会话的记录创建到文本文件中。脚本包括用户键入的所有命令以及控制台上显示的所有输出。

代码

cls
$global:scriptPath = Split-Path $script:MyInvocation.MyCommand.Path
$global:scriptName = $global:scriptPathAndName.Replace(($global:scriptPath + "\"),"")
$global:scriptNameNoExt = $global:scriptName.Replace(".ps1","")

Start-Transcript -LiteralPath ($global:scriptPath + "\" + (get-date -f "yyyy-MM-dd_HH-mm-ss") + "_" + $global:scriptNameNoExt + ".log") 

foreach ($n in 1..3)
{
    write-host -NoNewline ("test line " + $n + " ")
}

write-host 

Stop-Transcript
Run Code Online (Sandbox Code Playgroud)

控制台输出 - 按预期显示

Transcript started, output file is C:\temp\2019-02-06_07-13-43_test.log
test line 1 test line 2 test line 3 
Transcript stopped, output file is C:\temp\2019-02-06_07-13-43_test.log
Run Code Online (Sandbox Code Playgroud)

文字内容 …

powershell newline transcription

6
推荐指数
0
解决办法
1052
查看次数

如何自动转录 Skype 会议,并正确归属于每个参与者?

假设每个参与者都同意 Skype 通话的录音和转录,是否有一种方法可以转录会议(实时或离线或两者兼而有之),以便生成文本记录,其中每个口头文本都正确归属于发言者。然后可以将转录本输入到任何类型的搜索或 NLP 算法中。

“自动转录 Skype”的 Google 搜索前 3 名指的是使手动转录变得更容易的应用程序:

(1) http://www.dummies.com/how-to/content/how-to-convert-skype-audio-to-text-with-transcribe.html

(2) http://ask.metafilter.com/231400/How-to-record-and-transcribe-Skype-conversation

(3) https://www.ttetranscripts.com/blog/how-to-record-and-transcribe-your-skype-conversations

虽然录制音频并将其发送到语音转文本引擎很简单,但我怀疑它的质量是否会非常高,因为最好的结果通常是依赖于说话者的模型(否则我们就不必花时间来训练龙自然言)。

但是,在我们选择说话者相关转录模型之前,我们需要知道音频的哪个片段属于哪个说话者。有两种方法可以解决这个问题:

  1. 有一种简单的方法可以检索来自每个参与者的所有音频,例如,您只需在通话期间记录每个扬声器麦克风的所有音频,而无需进行任何分段。

  2. 如果第一个选项在某种程度上不可行或令人望而却步,我们必须使用说话人分类算法,该算法将音频分割成 N 个簇/说话人(大多数算法允许知道音频中有多少个说话人,但有些算法可以自己解决这个问题)。对于通话过程中的实时转录,我想我们需要一些奇特的实时说话者分类算法。

无论如何,一旦解决了分割问题,每个参与者都会拥有经过训练的说话者模型,然后将其应用于他们的音频部分。一天结束时,每个人都会得到一份不错的对话记录,稍后我们可以做一些花哨的事情,比如主题分析,或者也许老大哥想要筛选每个人的项目会议,而不必听几个小时的音频。

我的问题是,在实践中实施这一点的方法是什么?

nlp skype audio-recording speech-to-text transcription

5
推荐指数
0
解决办法
4452
查看次数

Google Speech API 单句

Google Speech API 的SingleUtterance工作原理是什么?根据文档,这是谷歌确定说话者何时说出单个话语的方式。我明白它的作用,但我想知道如何?API 是否只是等待一段时间的“无语”音频?如果是这样,无声音频持续多长时间会触发话语结束?

它是否有其他类型的 AI 算法可以帮助确定某人何时停止说话?

谢谢

transcription google-cloud-platform google-speech-api

5
推荐指数
1
解决办法
2245
查看次数

将 mp3 转录为文本 (python) --&gt; “RIFF id”错误

我正在尝试将 mp3 文件转换为文本,但我的代码返回下面概述的错误。任何帮助表示赞赏!

是一个示例 mp3 文件。以下是我尝试过的:

import speech_recognition as sr
print(sr.__version__)
r = sr.Recognizer()

file_audio = sr.AudioFile(r"C:\Users\Andrew\Podcast.mp3")

with file_audio as source:
    audio_text = r.record(source)

print(type(audio_text))
print(r.recognize_google(audio_text))
Run Code Online (Sandbox Code Playgroud)

我得到的完整错误。似乎:

Error: file does not start with RIFF id
Run Code Online (Sandbox Code Playgroud)

感谢您的帮助!

python speech-recognition speech-to-text transcription python-3.x

5
推荐指数
1
解决办法
7781
查看次数

如何自动保存 PowerShell 会话

如何将 PowerShell 窗口(输入和输出)中发生的所有内容自动重定向到文件?我的意思不是单个命令,而是我想要一个记录器之类的东西,它可以捕获所有内容并将其记录到本地文件中,以便我拥有在 powershell 窗口中完成的事情的历史记录。

powershell logging transcription

2
推荐指数
1
解决办法
1427
查看次数

批量创建转录始终会导致:录音 URI 包含无效数据

我想使用 Azure 语音服务批量转录 API来创建音频文件的转录。我已经成功使用语音服务 SDK(适用于 Node.js),但有兴趣尝试 v3.1 预览版 api ( displayFormWordLevelTimestampsEnabled) 中提供的较新功能之一,所以我想我必须使用REST API 服务来执行此操作。

总的来说,我的问题是,无论我为Create TranscriptAPI提供什么输入contentUrls,我总是会得到相同的错误:

"error": {
   "code": "InvalidData",
   "message": "The recordings URI contains invalid data."
}
Run Code Online (Sandbox Code Playgroud)

经过一番挖掘后,我通过 Azure 门户找到了一些提示,可用于以sox请求的特定格式处理音频文件的转码。

他们在门户文档中提到的具体格式显示:如果您使用 REST API,请确保它使用此表中的格式之一:

格式 编解码器 比特率 采样率
音频格式 相变材料 256kbps 16 kHz,单声道
奥格 奥普斯 256kbps 16 kHz,单声道

sox 的具体命令是:

活动 SoX命令
检查音频文件格式。 红袜--我
将音频文件转换为单声道、16 位、16 KHz。 sox -b 16 -e 有符号整数 -c 1 -r 16k -t wav .wav

我通过第二个命令运行我的 mp3 …

transcription azure-speech

1
推荐指数
1
解决办法
667
查看次数