如何在 Linux 中从 MS Office 文档中提取文本？

Question

我需要一种在 Linux 中从所有 MS Office 文档类型（Word、Excel、Powerpoint）中提取文本的方法。我设想可能有几种不同的方法来实现这一点，例如 Bash 或 Python 脚本，或者将它们转换为 PDF，然后使用诸如 pdftotext 之类的工具提取文本。

这似乎是一个司空见惯的要求。是否有既定的程序或工具可以轻松完成此操作？

Answer 1

Catdoc可以将 doc、xls 和 ppt 转换为文本。第二种选择是wvWare。

有关更多实用程序，请查看http://www.linux.com/archive/articles/52385以获取文字到文本转换程序和

Answer 2

Abiword可以从命令行在它知道的任何文件格式之间进行转换。

从 Word 转换为纯文本：

abiword --to=txt myfile.doc

从 Word 文件制作 pdf：

abiword --to=pdf myfile.doc

等等。这些情况下的结果将是 myfile.txt 或 myfile.pdf。如果要指定输出名称，也可以这样做：

abiword --to=txt --to-name=output.txt myfile.doc

将 ODT 转换为 Word：

abiword --to=doc myfile.odt

将 Word 转换为 ODT：

abiword --to=odt myfile.doc

公平对待其他答案，应该注意的是，AbiWord 使用 wvWare 来处理 Word 文档，但即使是 wvWare 主页也建议使用 AbiWord 代替大多数转换。

我讨厌文字处理器。这是我安装 AbiWord 的主要原因。

您可能还对unoconv感兴趣，这是一个类似的工具，支持 OpenOffice 知道的格式（包括电子表格等），但我个人没有这方面的经验。

Answer 3

我终于找到了完美的脚本文件解析工具，它是 apache-tika ，它可以将无数非文本格式解析为文本，非常酷！

在此处获取 Apache Tika：

（苹果机用户家酿：brew install tika）

命令行界面的工作方式如下：

tika --text something.docx > something.txt