如何从 Linux 的 Word 文档中提取图像

Hoo*_*ked 8 linux microsoft-word

是否有(Linux)命令行工具可以从 MS Word 文档中提取所有图像(最好是可以处理 .docx 格式的)?

les*_*ana 22

由于 docx 文件是 zip 文件,您可以解压缩 docx 文件,然后选择图像文件。

我没有要测试的 Microsoft Office,所以我从互联网上下载了一些随机的 docx 文件。图像似乎总是存储在word/media存档的目录中。

此命令将从media存档中的目录中提取所有文件:

unzip foo.docx "word/media/*"
Run Code Online (Sandbox Code Playgroud)

此命令将仅提取*.jpeg文件:

unzip foo.docx "*.jpeg"
Run Code Online (Sandbox Code Playgroud)

请注意,您必须指定"*.jpg"如果文件被保存为jpg代替jpeg。我假设图像也可能使用不同的格式存储。我不知道图像是否可以存储在word/media目录以外的其他位置。您可以使用unzip -l来列出存档的内容。

  • 旧的`doc` 格式没有被压缩。它要么是一个整体的 XML,要么是一个二进制 blob。您可以在 [此处](http://en.wikipedia.org/wiki/Microsoft_Word#File_formats) 阅读更多相关信息。 (3认同)