在Linux中从powerpoint pptx中提取文本的工具?

fel*_*lix 10 linux microsoft-powerpoint

是否有任何 Linux 工具可以从 Powerpoint pptx 文件中提取文本?我试过 catppt 但它只是返回file.pptx is not OLE file or Error. abiword --to=txt file.pptx还返回一个空的文本文件。

我可以在 libreoffice 中打开该文件,但它似乎没有“导出为文本”选项。作为猜测,我也尝试过,libreoffice --headless --convert-to txt:Text file.pptx但这甚至没有返回一个空文件。

小智 13

如果您可以处理 中的文件bash,此单行代码将解压缩所有文本:

unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'
Run Code Online (Sandbox Code Playgroud)

只是通过它的pptx文件$1,它将写入文本文件$2。每张幻灯片的内容不会按演示顺序出现,也不会有标签或任何东西,因此您需要多几行脚本和一个临时目录才能获得更具可读性的列表。