如何在 Linux 中从 MS Office 文档中提取文本?

Phy*_*win 18 linux pdf extract

我需要一种在 Linux 中从所有 MS Office 文档类型(Word、Excel、Powerpoint)中提取文本的方法。我设想可能有几种不同的方法来实现这一点,例如 Bash 或 Python 脚本,或者将它们转换为 PDF,然后使用诸如 pdftotext 之类的工具提取文本。

这似乎是一个司空见惯的要求。是否有既定的程序或工具可以轻松完成此操作?

nah*_*har 16

Catdoc可以将 doc、xls 和 ppt 转换为文本。第二种选择是wvWare

有关更多实用程序,请查看http://www.linux.com/archive/articles/52385以获取文字到文本转换程序和


fra*_*ous 8

Abiword可以从命令行在它知道的任何文件格式之间进行转换。

从 Word 转换为纯文本:

abiword --to=txt myfile.doc

从 Word 文件制作 pdf:

abiword --to=pdf myfile.doc

等等。这些情况下的结果将是 myfile.txt 或 myfile.pdf。如果要指定输出名称,也可以这样做:

abiword --to=txt --to-name=output.txt myfile.doc

将 ODT 转换为 Word:

abiword --to=doc myfile.odt

将 Word 转换为 ODT:

abiword --to=odt myfile.doc

公平对待其他答案,应该注意的是,AbiWord 使用 wvWare 来处理 Word 文档,但即使是 wvWare 主页也建议使用 AbiWord 代替大多数转换。

我讨厌文字处理器。这是我安装 AbiWord 的主要原因。

您可能还对unoconv感兴趣,这是一个类似的工具,支持 OpenOffice 知道的格式(包括电子表格等),但我个人没有这方面的经验。


Phy*_*win 8

我终于找到了完美的脚本文件解析工具,它是 apache-tika ,它可以将无数非文本格式解析为文本,非常酷!

在此处获取 Apache Tika:

http://tika.apache.org/

(苹果机用户家酿:brew install tika

命令行界面的工作方式如下:

tika --text something.docx > something.txt

  • 做了,无耻的......:D (2认同)