小编Far*_*Rad的帖子

使用 React 中的 Web Media Recorder API 实现实时语音识别,前端使用 Python,后端使用 Python

我们正在努力实现什么?

我们部署了一个人工智能模型来传输麦克风中的音频并向用户显示语音文本。像这样的东西。

使用什么技术?

  • 用于后端和 AI 模型的 Python
  • React 前端
  • 用于录制和配置音频的 Web Media Recorder API
  • WebSocket 连接 AI API

但有什么问题呢?

在前端,我尝试每秒将音频块作为 Int16Array 发送到后端。另外为了确保与麦克风和音频相关的一切工作正常,停止录制后我只能下载音频的第一个块,持续时间为 1 秒,这是非常清晰的。然而,当音频被打磨到后端时,它会变成一些噪音!

这是处理录音时的 React 代码部分:

        useEffect(()=> {
      if (recorder === null) {
        if (isRecording) {
          requestRecorder().then(setRecorder, console.error);
        } else {
          return;
        }
      }
  
      // Manage recorder state.
      if (isRecording && recorder) {
        recorder.start();
      } else if (!isRecording && recorder) {
        recorder.stop();
      }
 
    // send the data every second
    const ineterval = setInterval(() => {
      if (recorder) …
Run Code Online (Sandbox Code Playgroud)

audio speech-recognition audio-streaming speech-to-text web-mediarecorder

3
推荐指数
1
解决办法
555
查看次数