标签: microsoft-word

使用 pandoc 将 .docx 转换为 .pdf

我正在尝试使用 pandoc 将通过邮件收到的 .docx 转换为正确的 pdf(我使用的是 GNU/Linux)。

我有一个关于字符编码的错误:

$ pandoc file.docx -o file.pdf
pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream
Run Code Online (Sandbox Code Playgroud)

我试图识别编码:

$ file -i file .docx 
file.docx: application/vnd.openxmlformats-officedocument.wordprocessingml.document; charset=binary
Run Code Online (Sandbox Code Playgroud)

我有点惊讶charset=binary(我期待charset=iso8859-15)。但是,我无论如何都尝试将 .docx 转换为 utf8,但它不起作用:

 $ iconv -t utf-8 file.docx
P!      $iconv: séquence d'échappement non permise à la position 16
Run Code Online (Sandbox Code Playgroud)

我对pandoc 文档中的命令行有同样的错误:

iconv -t utf-8 file.docx | pandoc | iconv -f utf-8
Run Code Online (Sandbox Code Playgroud)

如何使用 pandoc 将此 .docx 转换为 pdf?

character-encoding pandoc microsoft-word

21
推荐指数
2
解决办法
2万
查看次数

用于搜索 docx 文件的命令行工具

是否有用于文本搜索 docx 文件的命令行工具?我试过grep,但它不适用于 docx,即使它适用于 txt 和 xml 文件。我可以先将 docx 转换为 txt,但我更喜欢直接对 docx 文件进行操作的工具。我需要该工具在 Cygwin 下工作。

OP 编辑​​:后来我发现实现 grep 的最简单方法实际上是将这些 docx 转换为 txt 然后 grep 覆盖它们。

grep cygwin search microsoft-word

11
推荐指数
2
解决办法
1万
查看次数

将 .docx 文件转换为纯文本并保留换行符以维护对源文档的行号引用:如何和含义?

我正在将 MS Word内容导出为纯文本,以便与文本和文件实用程序一起使用。我有一个约束,即MS 软件中启用了行编号功能,并且最终输出中对行号的任何引用都必须与该编号匹配。所以输入“编号行”:

在此处输入图片说明坡,EA

显然,对于Word,这种编号不会在换行符处断,而是在右边距(或其他东西)之后断行。像docx2txt, 这样的脚本默认情况下不考虑这一点,它似乎并在换行符处换行。因此,如果我使用grep -n编号,则行将与源行号功能不匹配,如上所示。从文档中并不清楚我需要如何编辑 Perl 脚本以在这种情况下以我需要的方式转换文件:

our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Run Code Online (Sandbox Code Playgroud)

我尝试替代\n\r\n但这似乎对我不起作用。所以我使用以下设置直接从Word导出文档(另存为纯文本,在 v.2013,64pc 上):

  • Unicode(UTF-8)
  • 用 (CR/LF) 插入换行符 + 结束行
  • 允许字符替换

现在确实当我使用这些.txt文件时,源编号功能和grep -n输出中的行号之间存在完美匹配。


  • 有没有我应该知道的特定配置/过程docx2txt或类似的命令行实用程序,它可以让我将我的.docx文件转换为纯文本,同时保留换行符,而不像我那样求助于 …

scripting conversion text microsoft-word

9
推荐指数
1
解决办法
1万
查看次数

如何使用 Linux 命令行替换 .DOCX 文件中的单词?

我想使用 shell 命令更改 .docx 文件中的单词。我尝试使用该sed命令,但它不起作用。有谁知道解决方案?

例如,我想更改一个单词(例如exp5)并将其替换exp3为文件中的另一个()exo.docx

linux text-processing microsoft-word

8
推荐指数
2
解决办法
9141
查看次数

如何将文件夹中的所有odt文件转换为microsoft word文件?

我有一个文件夹,里面有很多来自 LibreOffice 的 odt 文件,我可以手动打开每个文件并将其另存为 microsoft word 文件,但这需要很长时间,是否可以使用命令行达到这一目标?

command-line conversion libreoffice microsoft-word

5
推荐指数
1
解决办法
4677
查看次数

使用 Emacs 编辑 .docx 文件?

我从 Emacs 开始,并进行了测试,我想知道是否可以从那里编辑我自己的 .docx 文件,只是为了探索它的功能和那些东西。

但令我惊讶的是,当文本完美地显示在我的屏幕上时,我却无法覆盖它。Emacs 的 DocView 告诉我这是一个只读文档,我必须输入 Cc Cc 才能编辑它。这向我显示了显示内容(抱歉),但我看不到在哪里可以编辑它。

有人知道这个问题吗?这是我第一天尝试 Emacs,但令我震惊的是它无法处理 docx 文件。

editors documents emacs microsoft-word

5
推荐指数
1
解决办法
6832
查看次数