标签: transcription

如何标点YouTube成绩单？

在 Youtube 上，我可以下载视频的 CC 抄本，但抄本不包含标点符号。我怎样才能自动标点成绩单？

youtube transcription closed-captions

Wil*_*iam

lucky-day

10
推荐指数

3
解决办法

545
查看次数

Java中Wav文件的音乐转录

我有关于使用Java进行音乐转录的项目,事情是,我创建了一个记录声音并将其保存到WAV文件的applet,播放器应该只播放他/她想要转录的片段,之后我被卡住了在这一点上,我必须从保存的WAV文件中获取信息并使用此信息创建一个MIDI文件,并在创建MIDI文件后,我必须为它生成一个乐谱(乐谱),所有这些必须完成在Java中.

我到处寻找关于如何完成这些工作的明确解释,但我没有找到任何直接的东西:(因为我是Java的新手,我希望有人能帮我解决这个问题,我在编程时遇到的问题是:

获取有关在WAV文件中播放的音符的信息.
知道笔记.
创建一个等同于WAV文件的MIDI文件.
从MIDI文件生成SCORE.

在对正在读取的数据执行分段后,我也尝试过快速傅立叶变换,但我认为这绝对是在错误的方向:(

如果有人可以帮助我完成上面指定的主题,以及如何只用Java编程,那将非常感激:)

顺便说一句,该项目是:
玩家在钢琴上弹奏音符>>记录他的演奏>>玩家获得他演奏的分数.

java pitch-tracking transcription

Xtr*_*aiy

2011 02-07

8
推荐指数

1
解决办法

3087
查看次数

转录API

是否有任何API可以获得单词的转录？不仅适用于英语,也适用于其他流行语言(西班牙语,中文等).

PS最好是基于网络的API,但如果没有,我们会考虑任何其他平台.

api transcription

Ser*_*gey

lucky-day

8
推荐指数

0
解决办法

7462
查看次数

跟踪HTML5视频隐藏字幕可见性状态

我试图确定html视频的TextTrack元素当前是显示还是隐藏.

我看了一下html规范,乍一看,texttracks.mode属性可以完美地工作:http://www.whatwg.org/specs/web-apps/current-work/multipage/the-video- element.html#文本轨道隐藏

我在谷歌浏览器版本35.0.1916.153中使用以下html和代码测试了此属性:

HTML:

<video>
    <track id="en" kind="subtitles" src="transcript.vtt"></track>
    <source src = "samplevideo.mp4">
</video>

Run Code Online (Sandbox Code Playgroud)

码:

$(video)[0].textTracks[0].mode

Run Code Online (Sandbox Code Playgroud)

最初,代码按预期返回"隐藏",并在点击视频播放器上的脚本按钮并重新运行代码后,返回"显示".

如果我在这些步骤之后关闭播放器并重新运行代码,尽管录像中隐藏了成绩单,它仍会返回"显示".

有没有更好的方法来检测html5视频播放器上的可见/不可见的成绩单状态？

html javascript video jquery transcription

Mod*_*ulo

2014 07-28

6
推荐指数

1
解决办法

974
查看次数

开始记录和记录批处理文件输出

我在 PowerShell 模块中有一个函数，它创建一个日志文件并使用该文件启动转录（见下文）。运行 PowerShell 脚本时，这非常有效并捕获所有输出。

运行调用批处理文件的 PowerShell 脚本时（我们在从 CMD > PowerShell 迁移时经常这样做），批处理文件输出显示在与 PowerShell 脚本相同的窗口中的控制台上，但转录日志文件仅显示 1 个空白调用批处理文件的行。

09:53:25 AM [Success] Zip file already up to date, no need to download!
09:53:25 AM [Note   ] Calling 1.bat

10:07:55 AM [Note   ] Calling 2.bat

Run Code Online (Sandbox Code Playgroud)

我从 .ps1 脚本调用批处理文件，仅使用与号“&”。

奇怪的是，有时批处理文件输出会被捕获在日志中（通常是调用的第一个批处理文件）。但是我找不到这些文件的任何特别之处。

同样奇怪的是，有时我们调用外部程序（WinSCP），而这些命令的输出有时只显示在脚本中。可能相关。

作为参考，这里是我用来创建流程记录的函数。

Function Log_Begin()
{
    <#
    .SYNOPSIS
    Starts the process for logging a PowerShell script.
    .DESCRIPTION
    Starts the process for logging a PowerShell script. This means that whenever
    this function is …

Run Code Online (Sandbox Code Playgroud)

powershell logging module batch-file transcription

Xan*_*rim

2017 04-04

6
推荐指数

0
解决办法

1979
查看次数

应该使用哪种罗马化标准来改进阿拉伯语 - 拉丁语的ICU4j音译？

我们要求将阿拉伯语文本音译为拉丁字符(不带变音符号)并将其显示给用户.

我们目前正在使用IBM ICU4j.API不能很好地将阿拉伯文本转换成适当的可读拉丁字符.请参考以下示例:

例

阿拉伯文:

صدامحسينالتكريتي
谷歌的音译输出

: Sadaam Hussein al-tikriti
ICU4J的音译输出

: ?d?m ?syn ?ltkryty

我们如何提高ICU4j库的音译输出？

ICU4J为我们提供了编写我们自己的规则的选项,但我们目前陷入困境,因为我们团队中没有人知道阿拉伯语,并且无法找到任何可以遵循的正确标准.

java nlp transliteration transcription icu4j

Kam*_*rma

2018 06-29

6
推荐指数

1
解决办法

309
查看次数

为什么即使我使用 Write-Host -NoNewline，“Start-Transcript” cmdlet 也会插入换行符？

从开始记录：

Start-Transcript cmdlet 将全部或部分 PowerShell 会话的记录创建到文本文件中。脚本包括用户键入的所有命令以及控制台上显示的所有输出。

代码

cls
$global:scriptPath = Split-Path $script:MyInvocation.MyCommand.Path
$global:scriptName = $global:scriptPathAndName.Replace(($global:scriptPath + "\"),"")
$global:scriptNameNoExt = $global:scriptName.Replace(".ps1","")

Start-Transcript -LiteralPath ($global:scriptPath + "\" + (get-date -f "yyyy-MM-dd_HH-mm-ss") + "_" + $global:scriptNameNoExt + ".log") 

foreach ($n in 1..3)
{
    write-host -NoNewline ("test line " + $n + " ")
}

write-host 

Stop-Transcript

Run Code Online (Sandbox Code Playgroud)

控制台输出 - 按预期显示

Transcript started, output file is C:\temp\2019-02-06_07-13-43_test.log
test line 1 test line 2 test line 3 
Transcript stopped, output file is C:\temp\2019-02-06_07-13-43_test.log

Run Code Online (Sandbox Code Playgroud)

文字内容 …

powershell newline transcription

Nov*_*Eng

lucky-day

6
推荐指数

0
解决办法

1052
查看次数

如何自动转录 Skype 会议，并正确归属于每个参与者？

假设每个参与者都同意 Skype 通话的录音和转录，是否有一种方法可以转录会议（实时或离线或两者兼而有之），以便生成文本记录，其中每个口头文本都正确归属于发言者。然后可以将转录本输入到任何类型的搜索或 NLP 算法中。

“自动转录 Skype”的 Google 搜索前 3 名指的是使手动转录变得更容易的应用程序：

(1) http://www.dummies.com/how-to/content/how-to-convert-skype-audio-to-text-with-transcribe.html

(2) http://ask.metafilter.com/231400/How-to-record-and-transcribe-Skype-conversation

(3) https://www.ttetranscripts.com/blog/how-to-record-and-transcribe-your-skype-conversations

虽然录制音频并将其发送到语音转文本引擎很简单，但我怀疑它的质量是否会非常高，因为最好的结果通常是依赖于说话者的模型（否则我们就不必花时间来训练龙自然言）。

但是，在我们选择说话者相关转录模型之前，我们需要知道音频的哪个片段属于哪个说话者。有两种方法可以解决这个问题：

有一种简单的方法可以检索来自每个参与者的所有音频，例如，您只需在通话期间记录每个扬声器麦克风的所有音频，而无需进行任何分段。
如果第一个选项在某种程度上不可行或令人望而却步，我们必须使用说话人分类算法，该算法将音频分割成 N 个簇/说话人（大多数算法允许知道音频中有多少个说话人，但有些算法可以自己解决这个问题）。对于通话过程中的实时转录，我想我们需要一些奇特的实时说话者分类算法。

无论如何，一旦解决了分割问题，每个参与者都会拥有经过训练的说话者模型，然后将其应用于他们的音频部分。一天结束时，每个人都会得到一份不错的对话记录，稍后我们可以做一些花哨的事情，比如主题分析，或者也许老大哥想要筛选每个人的项目会议，而不必听几个小时的音频。

我的问题是，在实践中实施这一点的方法是什么？

nlp skype audio-recording speech-to-text transcription

use*_*238

lucky-day

5
推荐指数

0
解决办法

4452
查看次数

Google Speech API 单句

Google Speech API 的SingleUtterance工作原理是什么？根据文档，这是谷歌确定说话者何时说出单个话语的方式。我明白它的作用，但我想知道如何？API 是否只是等待一段时间的“无语”音频？如果是这样，无声音频持续多长时间会触发话语结束？

它是否有其他类型的 AI 算法可以帮助确定某人何时停止说话？

谢谢

transcription google-cloud-platform google-speech-api

Har*_*art

2018 09-13

5
推荐指数

1
解决办法

2245
查看次数

将 mp3 转录为文本 (python) --> “RIFF id”错误

我正在尝试将 mp3 文件转换为文本，但我的代码返回下面概述的错误。任何帮助表示赞赏！

这是一个示例 mp3 文件。以下是我尝试过的：

import speech_recognition as sr
print(sr.__version__)
r = sr.Recognizer()

file_audio = sr.AudioFile(r"C:\Users\Andrew\Podcast.mp3")

with file_audio as source:
    audio_text = r.record(source)

print(type(audio_text))
print(r.recognize_google(audio_text))

Run Code Online (Sandbox Code Playgroud)

我得到的完整错误。似乎：

Error: file does not start with RIFF id

Run Code Online (Sandbox Code Playgroud)

感谢您的帮助！

python speech-recognition speech-to-text transcription python-3.x

And*_*rew

lucky-day

5
推荐指数

1
解决办法

7781
查看次数

如何自动保存 PowerShell 会话

如何将 PowerShell 窗口（输入和输出）中发生的所有内容自动重定向到文件？我的意思不是单个命令，而是我想要一个记录器之类的东西，它可以捕获所有内容并将其记录到本地文件中，以便我拥有在 powershell 窗口中完成的事情的历史记录。

powershell logging transcription

STO*_*ORM

2018 02-26

2
推荐指数

1
解决办法

1427
查看次数

批量创建转录始终会导致：录音 URI 包含无效数据

我想使用 Azure 语音服务批量转录 API来创建音频文件的转录。我已经成功使用语音服务 SDK（适用于 Node.js），但有兴趣尝试 v3.1 预览版 api ( displayFormWordLevelTimestampsEnabled) 中提供的较新功能之一，所以我想我必须使用REST API 服务来执行此操作。

总的来说，我的问题是，无论我为Create TranscriptAPI提供什么输入contentUrls，我总是会得到相同的错误：

"error": {
   "code": "InvalidData",
   "message": "The recordings URI contains invalid data."
}

Run Code Online (Sandbox Code Playgroud)

经过一番挖掘后，我通过 Azure 门户找到了一些提示，可用于以sox请求的特定格式处理音频文件的转码。

他们在门户文档中提到的具体格式显示：如果您使用 REST API，请确保它使用此表中的格式之一：

格式	编解码器	比特率	采样率
音频格式	相变材料	256kbps	16 kHz，单声道
奥格	奥普斯	256kbps	16 kHz，单声道

sox 的具体命令是：

活动	SoX命令
检查音频文件格式。	红袜--我
将音频文件转换为单声道、16 位、16 KHz。	sox -b 16 -e 有符号整数 -c 1 -r 16k -t wav .wav

我通过第二个命令运行我的 mp3 …

transcription azure-speech

sha*_*ren

2022 09-14

1
推荐指数

1
解决办法

667
查看次数

标签统计

transcription ×12

powershell ×3

java ×2

logging ×2

nlp ×2

speech-to-text ×2

api ×1

audio-recording ×1

azure-speech ×1

batch-file ×1

closed-captions ×1

google-cloud-platform ×1

google-speech-api ×1

html ×1

icu4j ×1

javascript ×1

jquery ×1

module ×1

newline ×1

pitch-tracking ×1

python ×1

python-3.x ×1

skype ×1

speech-recognition ×1

transliteration ×1

video ×1

youtube ×1

标签 统计

标签统计