标签: pdf

使用 pdftotext 将 PDF 转换为文本时可以修改编码吗?

有时当我pdftotext这样做时会产生完美的文本。我认为这是因为实际的 unicode 文本数据直接嵌入到 PDF 本身中,并且只需读出即可。

\n\n

但其他时候(大约一半或更多的文档不只是直接扫描的图像)它会导致〜奇怪的字形〜代替诸如变音符号和重音符号之类的东西,有时甚至是看起来模糊的字母。

\n\n

例如,这个约鲁巴语词典 PDF就存在这些问题。如果你运行这个:

\n\n
pdftotext yoruba.pdf yoruba.txt\n
Run Code Online (Sandbox Code Playgroud)\n\n

你最终会看到这些词散布在各处:

\n\n
expected     actual\n--------     ------\nlairot\xe1\xba\xb9le    lairot4ille\nik\xe1\xbb\x8dsil\xe1\xba\xb9      ikljlsil4il\nlog\xc3\xb3         logb\n
Run Code Online (Sandbox Code Playgroud)\n\n

请注意,重音符号\xc3\xb3变成了字母b。但并不是每个 \xc3\xb3 都变成了 doc 中的 ab。许多人这样做,但不是全部。与\xe1\xba\xb9a相同4il。许多人都变成这样,可能是所有人。大多数时候(我的感觉是)更晦涩的重音符号/变音符号\xe1\xba\xb9会被转换成陌生的字符或字符序列

\n\n

为什么是这样?是 OCR 的东西吗?或者PDF实际上是否嵌入了纯文本(即它不是图像的扫描文档)?然而,它在某种程度上没有被正确解码。我想知道这个问题的答案,所以至少我知道这是 OCR 问题或编码/解码问题。

\n\n

如果这是一个编码问题,那就很有趣了。那么我的问题是,我可以告诉pdftotext使用一些晦涩的解码技术吗?或者是什么。

\n\n

我提出这个问题的部分原因是我最近发现了一些网页是用 或 编码的ucs2latin1有些甚至是用一些奇怪的windows2255或某种编码编码的。因此,我必须修改编码/解码才能正确提取 HTML 文档中的文本。我想知道在这种情况下同样的情况是否也适用于 PDF。

\n\n

另一个遇到此问题的文档是纳瓦霍词典。我不知道这是 OCR …

encoding pdf ocr unicode character-encoding

5
推荐指数
0
解决办法
346
查看次数

Office Word中“另存为”和“导出”有什么区别

如果我想从我的 Office Word 文档 (.docx) 制作 pdf 文件,以下内容有何区别:

  1. 文件->另存为->在“保存类型”提示中选择“PDF”
  2. 文件->导出->“创建 PDF/XPS 文档”
  3. 文件->打印->在打印机提示中选择“Microsoft Printer to PDF”

pdf printing microsoft-office microsoft-word

5
推荐指数
1
解决办法
6444
查看次数

使用 PowerShell(或 CMD)删除 PDF 密码

这是此 Ubuntu 问题的示例副本

我有许多用密码加密发送给我的 PDF 文件,为了简单起见,所有 PDF 的密码都是相同的。当我将这些文件存储在永久存档中时,我没有理由保留密码,也没有理由在每次打开这些文件时都输入密码。

我可以使用链接的问答来构建基于 Docker 的解决方案,以从 pdf 文件中删除密码,或者我可以在此处询问 Windows 10 是否可以实现同样的操作。

choco如果我需要一些包裹,我可以访问。

pdf powershell passwords windows-10

5
推荐指数
1
解决办法
6550
查看次数

MacOS 上数字色彩计中的不同 RGB 值

我正在使用 MacOS 应用程序“数字色度计”从不同网站获取 RGB 值。现在我想在 Word 文档中使用这些颜色,并将其导出为 PDF。我希望 PDF 文档上的颜色与网站上的颜色完全相同。
问题是,数字色度计应用程序可以显示 5 种不同类型的 RGB 值,但我不明白有什么区别。这些值被命名为“native value”、“sRGB”、“P3”、“Generic RGB”和“Adobe RGB”。有谁知道,我必须使用其中哪一个才能在 Microsoft word 生成的 PDF 文档中实现相同的颜色?

pdf colors rgb microsoft-word

5
推荐指数
1
解决办法
1166
查看次数

“tesseract”到底是什么?

就像许多提供免费/开源版本并销售“商业”版本的软件公司一样,他们使实际下载和使用免费版本变得尽可能神秘和不友好。这是一个典型的例子: https: //mupdf.com/downloads/

有两个适用于 Windows 的不同文件可供下载:

mupdf-1.18.0-windows.zip
mupdf-1.18.0-windows-tesseract.zip
Run Code Online (Sandbox Code Playgroud)

什么是“-tesseract”?不知道。我浏览了该页面、其他页面、在线搜索等等。没有任何线索。没有一个词解释其中的区别或“超正方体”的含义。维基百科的消歧页面也没有暗示它可能指的是什么。

什么是“超立方体”?更重要的是:它与 PDF 查看有什么关系?为什么它是一个单独的文件?

windows pdf open-source tesseract-ocr

5
推荐指数
1
解决办法
1188
查看次数

Okular 每张打印多页已灰显/停用

问题是,每当我想打印多页并将其保存为文件中的 pdf 文档(打印到文件选项)时,页面设置选项都会保持灰色。我没有可用的打印机,因此我无法确定问题是否仍然存在。我正在使用全新安装的 Manjaro 20.2。我错过了什么/做错了什么吗?

照片供参考

pdf kde printing okular

5
推荐指数
0
解决办法
315
查看次数

如何将整个 MS Word 文档保存为单页 PDF?

我正在使用 MS Word,有很多地方我关心文档的最终外观。我不想分割某些部分(例如粘贴的源代码)。我也不想将这些部分变成对象,因为虽然它会使它们保持不分离,但它会经常在它们周围的文档中添加填充空白。Web 布局对于开发来说效果很好,但最终我会将文档导出为 PDF。我希望生成的 PDF 只有一页很长

如何将 MS Word 文档导出为 PDF,以便生成的文件仅包含一页(合并所有页面的结果,内容之间没有看似随机的页眉和页脚)?

pdf merge microsoft-word

5
推荐指数
1
解决办法
4715
查看次数

在 Okular 中自定义数字签名的外观

我正在使用KDE Neon,并且我已成功配置 Okular 以将数字签名添加到我的 PDF(使用“工具”>“数字签名”菜单项)。

然而,它看起来像这样丑陋(带有黑色边框和浅灰色填充的矩形):

在此输入图像描述

(我添加了一些黑色矩形来审查一些敏感信息)

有没有办法定制这种丑陋的数字签名表示?我认为只有“签名者:”行和“日期:”行(均左对齐)就足够了。

linux pdf okular

5
推荐指数
0
解决办法
1019
查看次数

如何修复损坏的 PDF?

我在 Apple Books 中有一本来自 iPad 上本地文件的书 (PDF)。我在 PDF 上做了两个月的笔记。

今天我无法打开它并收到错误:

“无法打开文档。无法打开 ''”

所以我将文件空投到 Mac 上,尝试在 Preview、Adobe 和 Acrobat 中打开它。我在任何地方尝试过该文件,但都无法打开该文件。它可能已损坏或损坏。

我尝试使用Ghostscript( gs)修复它,但没有成功:

gs \
 -o repaired.pdf \
 -sDEVICE=pdfwrite \
 -dPDFSETTINGS=/prepress \
  corrupted.pdf
Run Code Online (Sandbox Code Playgroud)

我收到一个错误:

Catalog dictionary not located in file, unable to proceed


**** Error: Couldn't initialise file.
               Output may be incorrect.



No pages will be processed (FirstPage > LastPage).

The following errors were encountered at least once while processing this file:
    startxref offset invalid
    xref table was repaired

   **** This …
Run Code Online (Sandbox Code Playgroud)

pdf ghostscript

5
推荐指数
1
解决办法
235
查看次数

将 Word/PDF 文件拆分为多个文档?

我在 Word 上创建了一个名片设计,卡片的每一面都是一个 85x55 毫米的页面。大多数打印机似乎都希望它是 PDF 文件,这很容易,但他们有时希望每一面都作为不同的文档。

是否可以将一个 word 或 PDF 文件拆分为多个文档,例如在分页符上拆分?我在 Word 2007 中找不到选项,也不知道 Acrobat,但我对此表示怀疑。

pdf microsoft-word

4
推荐指数
2
解决办法
2万
查看次数