如何以编程方式读取.pdf文件并将其转换为音频(.mp3格式)?

Att*_*lah 5 .net c# c++ mfc text-to-speech

我想从我的C#应用​​程序解析PDF文件并创建一个音频文件.我该怎么办?

我特别想找一个好的pdf文本库或者从文本中删除pdf文件的方法.

Dir*_*mar 5

您最好使用带标记的PDF文档作为输入文档.这意味着该文档包含标记以标记文档的逻辑结构(通常PDF文档仅包含可视信息).

然后可以将此PDF转换为DAISY格式,这是数字通话书籍的标准,即存储书籍文本以及逻辑结构和导航功能的中间XML格式.

这种Daisy XML格式可以转换为音频格式,也可以使用Daisy阅读器,像MP3播放器这样的物理设备来收听书籍.

Daisy网站上有一个演示文稿,解释了这个工具链的原理:

可访问的PDF到DAISY/NIMAS转换


Art*_*ler 0

我想这是一件很难做到的事情。首先,您需要阅读该 pdf 中的文本,然后使用某种合成语音生成机制来创建音频内容。然后你必须将其存储为 mp3。