我们部署了一个人工智能模型来传输麦克风中的音频并向用户显示语音文本。像这样的东西。
在前端,我尝试每秒将音频块作为 Int16Array 发送到后端。另外为了确保与麦克风和音频相关的一切工作正常,停止录制后我只能下载音频的第一个块,持续时间为 1 秒,这是非常清晰的。然而,当音频被打磨到后端时,它会变成一些噪音!
这是处理录音时的 React 代码部分:
useEffect(()=> {
if (recorder === null) {
if (isRecording) {
requestRecorder().then(setRecorder, console.error);
} else {
return;
}
}
// Manage recorder state.
if (isRecording && recorder) {
recorder.start();
} else if (!isRecording && recorder) {
recorder.stop();
}
// send the data every second
const ineterval = setInterval(() => {
if (recorder) …Run Code Online (Sandbox Code Playgroud) audio speech-recognition audio-streaming speech-to-text web-mediarecorder