有时当我pdftotext这样做时会产生完美的文本。我认为这是因为实际的 unicode 文本数据直接嵌入到 PDF 本身中,并且只需读出即可。
但其他时候(大约一半或更多的文档不只是直接扫描的图像)它会导致〜奇怪的字形〜代替诸如变音符号和重音符号之类的东西,有时甚至是看起来模糊的字母。
\n\n例如,这个约鲁巴语词典 PDF就存在这些问题。如果你运行这个:
\n\npdftotext yoruba.pdf yoruba.txt\nRun Code Online (Sandbox Code Playgroud)\n\n你最终会看到这些词散布在各处:
\n\nexpected actual\n-------- ------\nlairot\xe1\xba\xb9le lairot4ille\nik\xe1\xbb\x8dsil\xe1\xba\xb9 ikljlsil4il\nlog\xc3\xb3 logb\nRun Code Online (Sandbox Code Playgroud)\n\n请注意,重音符号\xc3\xb3变成了字母b。但并不是每个 \xc3\xb3 都变成了 doc 中的 ab。许多人这样做,但不是全部。与\xe1\xba\xb9a相同4il。许多人都变成这样,可能是所有人。大多数时候(我的感觉是)更晦涩的重音符号/变音符号\xe1\xba\xb9会被转换成陌生的字符或字符序列。
为什么是这样?是 OCR 的东西吗?或者PDF实际上是否嵌入了纯文本(即它不是图像的扫描文档)?然而,它在某种程度上没有被正确解码。我想知道这个问题的答案,所以至少我知道这是 OCR 问题或编码/解码问题。
\n\n如果这是一个编码问题,那就很有趣了。那么我的问题是,我可以告诉pdftotext使用一些晦涩的解码技术吗?或者是什么。
我提出这个问题的部分原因是我最近发现了一些网页是用 或 编码的ucs2,latin1有些甚至是用一些奇怪的windows2255或某种编码编码的。因此,我必须修改编码/解码才能正确提取 HTML 文档中的文本。我想知道在这种情况下同样的情况是否也适用于 PDF。
另一个遇到此问题的文档是纳瓦霍词典。我不知道这是 OCR …
如果我想从我的 Office Word 文档 (.docx) 制作 pdf 文件,以下内容有何区别:
这是此 Ubuntu 问题的示例副本。
我有许多用密码加密发送给我的 PDF 文件,为了简单起见,所有 PDF 的密码都是相同的。当我将这些文件存储在永久存档中时,我没有理由保留密码,也没有理由在每次打开这些文件时都输入密码。
我可以使用链接的问答来构建基于 Docker 的解决方案,以从 pdf 文件中删除密码,或者我可以在此处询问 Windows 10 是否可以实现同样的操作。
choco如果我需要一些包裹,我可以访问。
我正在使用 MacOS 应用程序“数字色度计”从不同网站获取 RGB 值。现在我想在 Word 文档中使用这些颜色,并将其导出为 PDF。我希望 PDF 文档上的颜色与网站上的颜色完全相同。
问题是,数字色度计应用程序可以显示 5 种不同类型的 RGB 值,但我不明白有什么区别。这些值被命名为“native value”、“sRGB”、“P3”、“Generic RGB”和“Adobe RGB”。有谁知道,我必须使用其中哪一个才能在 Microsoft word 生成的 PDF 文档中实现相同的颜色?
就像许多提供免费/开源版本并销售“商业”版本的软件公司一样,他们使实际下载和使用免费版本变得尽可能神秘和不友好。这是一个典型的例子: https: //mupdf.com/downloads/
有两个适用于 Windows 的不同文件可供下载:
mupdf-1.18.0-windows.zip
mupdf-1.18.0-windows-tesseract.zip
Run Code Online (Sandbox Code Playgroud)
什么是“-tesseract”?不知道。我浏览了该页面、其他页面、在线搜索等等。没有任何线索。没有一个词解释其中的区别或“超正方体”的含义。维基百科的消歧页面也没有暗示它可能指的是什么。
什么是“超立方体”?更重要的是:它与 PDF 查看有什么关系?为什么它是一个单独的文件?
问题是,每当我想打印多页并将其保存为文件中的 pdf 文档(打印到文件选项)时,页面设置选项都会保持灰色。我没有可用的打印机,因此我无法确定问题是否仍然存在。我正在使用全新安装的 Manjaro 20.2。我错过了什么/做错了什么吗?
我正在使用 MS Word,有很多地方我关心文档的最终外观。我不想分割某些部分(例如粘贴的源代码)。我也不想将这些部分变成对象,因为虽然它会使它们保持不分离,但它会经常在它们周围的文档中添加填充空白。Web 布局对于开发来说效果很好,但最终我会将文档导出为 PDF。我希望生成的 PDF 只有一页很长。
如何将 MS Word 文档导出为 PDF,以便生成的文件仅包含一页(合并所有页面的结果,内容之间没有看似随机的页眉和页脚)?
我正在使用KDE Neon,并且我已成功配置 Okular 以将数字签名添加到我的 PDF(使用“工具”>“数字签名”菜单项)。
然而,它看起来像这样丑陋(带有黑色边框和浅灰色填充的矩形):
(我添加了一些黑色矩形来审查一些敏感信息)
有没有办法定制这种丑陋的数字签名表示?我认为只有“签名者:”行和“日期:”行(均左对齐)就足够了。
我在 Apple Books 中有一本来自 iPad 上本地文件的书 (PDF)。我在 PDF 上做了两个月的笔记。
今天我无法打开它并收到错误:
“无法打开文档。无法打开 ''”
所以我将文件空投到 Mac 上,尝试在 Preview、Adobe 和 Acrobat 中打开它。我在任何地方尝试过该文件,但都无法打开该文件。它可能已损坏或损坏。
我尝试使用Ghostscript( gs)修复它,但没有成功:
gs \
-o repaired.pdf \
-sDEVICE=pdfwrite \
-dPDFSETTINGS=/prepress \
corrupted.pdf
Run Code Online (Sandbox Code Playgroud)
我收到一个错误:
Catalog dictionary not located in file, unable to proceed
**** Error: Couldn't initialise file.
Output may be incorrect.
No pages will be processed (FirstPage > LastPage).
The following errors were encountered at least once while processing this file:
startxref offset invalid
xref table was repaired
**** This …Run Code Online (Sandbox Code Playgroud) 我在 Word 上创建了一个名片设计,卡片的每一面都是一个 85x55 毫米的页面。大多数打印机似乎都希望它是 PDF 文件,这很容易,但他们有时希望每一面都作为不同的文档。
是否可以将一个 word 或 PDF 文件拆分为多个文档,例如在分页符上拆分?我在 Word 2007 中找不到选项,也不知道 Acrobat,但我对此表示怀疑。
pdf ×10
okular ×2
printing ×2
colors ×1
encoding ×1
ghostscript ×1
kde ×1
linux ×1
merge ×1
ocr ×1
open-source ×1
passwords ×1
powershell ×1
rgb ×1
unicode ×1
windows ×1
windows-10 ×1