我需要一种在 Linux 中从所有 MS Office 文档类型(Word、Excel、Powerpoint)中提取文本的方法。我设想可能有几种不同的方法来实现这一点,例如 Bash 或 Python 脚本,或者将它们转换为 PDF,然后使用诸如 pdftotext 之类的工具提取文本。
这似乎是一个司空见惯的要求。是否有既定的程序或工具可以轻松完成此操作?
我想要做的是复制 500K 的文件。
我想在服务器内从一个目的地复制到另一个目的地。它包括电子邮件,主要是许多小文件。
它仅超过 23 GB,但需要很长时间(超过 30 分钟尚未完成),linux cp 命令也仅使用 1 个 CPU。
因此,如果我将其编写为使用多个 cps ,是否会使其更快。
系统为 16 核、16 GB 内存、15K 驱动程序(15000 RPM SATA)。
还有哪些选择?
我相信tarring和untaring会花费更长的时间并且不会使用多核..