小编Kit*_*Kat的帖子

使用 Ghostscript 从 PDF 中提取文本

我正在使用 Ghostscript 9.20 从仅包含两行文本的 PDF 文档中提取文本：

\n\n

Hello world\xe2\x80\xa6\nA beautiful day!\n

Run Code Online (Sandbox Code Playgroud)\n\n

应用的代码是：

\n\n

gswin32c -sDEVICE=txtwrite -o output.txt input.pdf\n

Run Code Online (Sandbox Code Playgroud)\n\n

然而，输出是：

\n\n

  \xe4\xa0\x80\xe6\x94\x80\xe6\xb0\x80\xe6\xb0\x80\xe6\xbc\x80\xe2\x80\x80\xe7\x9c\x80\xe6\xbc\x80\xe7\x88\x80\xe6\xb0\x80\xe6\x90\x80\xe2\x98\xa0\xe2\x80\x80\n  \xe4\x84\x80\xe2\x80\x80\xe6\x88\x80\xe6\x94\x80\xe6\x84\x80\xe7\x94\x80\xe7\x90\x80\xe6\xa4\x80\xe6\x98\x80\xe7\x94\x80\xe6\xb0\x80\xe2\x80\x80\xe6\x90\x80\xe6\x84\x80\xe7\xa4\x80\xe2\x84\x80\xe2\x80\x80\n

Run Code Online (Sandbox Code Playgroud)\n\n

这是怎么回事？我该如何解决？

pdf text ghostscript

Kit*_*Kat

lucky-day

7
推荐指数

1
解决办法

8979
查看次数