我知道PDF和文本可搜索的PDF之间存在差异.文本可搜索的PDF具有用于搜索的文本覆盖.是否可以将此文本叠加层提取到txt文件中?也许使用Adobe API?
Kur*_*fle 15
"可搜索的PDF"不是官方定义,但它是一种常用的表达方式.
如果标准PDF包含它使用的所有嵌入的字体,并且如果这些字体不使用自定义编码,则可能是"可搜索":这意味着您可以复制'n'粘贴文本,并且您可以提取来自它的文本(以及pdftotext工作或多或少完美无缺的工具).这与"文本覆盖"无关,它是PDF的标准体系结构.
您描述为"文本叠加"的内容是可以添加到扫描的 PDF中的内容.从扫描创建的PDF是整页图像,通常是TIFF,嵌入(否则为空)PDF页面.然后,在另外的步骤中,通过对其运行OCR(光学字符识别)来添加"文本覆盖".这为其他愚蠢的'仅像素'PDF提供了"可搜索性".
如果带有"文本覆盖"的PDF不会在其字体周围使用奇怪的结构,那么应该很容易将此文本提取到*.txt文件中.毕竟,在仅图像PDF上运行OCR旨在添加"可搜索"文本:
安装pdftotext(适用于Linux,Unix,Windows,Mac OS X),然后尝试运行:
pdftotext -layout some-input.pdf some-input.txt
Run Code Online (Sandbox Code Playgroud)警告,大多数OCR的工作远非完美.如果你对所有角色的识别率都是99%,那么你会很幸运.(但是,这意味着:所有的约10%的话,所有的约100%的句子包含一个错误-这会给你上高中了保证失败...)
还应该注意的是,这些"文本叠加"在技术上与PDF中的任何其他文本部分相同(除了它们包含更多的拼写和语法错误:-) - 但它们使用特殊的文本呈现模式(模式3),描述为"无论是填充还是描边文字(不可见)." 虽然它是"隐形的",但你仍然可以突出显示,复制'''或者提取这些文本部分.
| 归档时间: |
|
| 查看次数: |
2634 次 |
| 最近记录: |