相关疑难解决方法(0)

关于解析 pdf 时没有 Unicode 映射错误

我有一堆 pdf 文件(来自不同来源),我想从中提取文本(不幸的是无法附加文件)。

当前解析结果

  1. Tika 默默地返回文本,其中缺少许多所需的数据。
  2. 直接使用 PDFBox 会给出一堆警告(见下文),并且还会删除它无法识别的数据
  3. Adobe Acrobat Reader(另存为文本操作)保留原始文档结构,但在有问题的字体处放置“”

到目前为止,我从 PDFBox 中看到的所有警告组合在一起:

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+51 (51) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font HCUDUN+DroidSerif-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+55 …
Run Code Online (Sandbox Code Playgroud)

unicode parsing pdf-parsing pdfbox apache-tika

6
推荐指数
0
解决办法
4960
查看次数

修复 PDF 中丢失的 ToUniCode 映射

我有一个 pdf 文件,我想从中提取文本。但由于缺少 toUniCode 地图,我无法做到。

./pdffonts /Users/subhashlengare/Downloads/pqr39_abc.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
ATRTHG+TT1CABt00                     TrueType          yes yes no      23  0
VFQVYH+TT1CAEt00                     TrueType          yes yes no      19  0
ODNMDG+TT1CAFt00                     TrueType          yes yes no      31  0
DXGYRQ+TT1CB0t00                     TrueType          yes yes no      27  0
VFQVYH+TT1CB1t00                     TrueType          yes yes no       7  0
ArialMT                              TrueType          no  no  no     295  0
NXBBUP+TT1CC0t00                     TrueType          yes yes no      53  0
NXBBUP+TT1CC1t00                     TrueType          yes yes no      65  0
KDGXKF+TT1CC4t00                     TrueType          yes yes …
Run Code Online (Sandbox Code Playgroud)

pdf itext pdfbox

5
推荐指数
0
解决办法
1053
查看次数

如何解决来自 PDFBox 的无 unicode 映射错误?

我有一个现有的 PDF 文件,我想使用 python 脚本将其转换为 excel 文件。当前使用 PDFBox,但是有多个类似以下的错误:

org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
No Unicode mapping for CID+24 (24) in font DroidSansFallback
Run Code Online (Sandbox Code Playgroud)

我可以使用 pdfbox 或其他 java/python 脚本替换 droidsansfallback 字体或将字体替换为另一种字体吗?请帮忙。

python java unicode pdfbox

5
推荐指数
1
解决办法
4944
查看次数

PDF 复制文本问题:奇怪的字符

我试图从 PDF 文件中复制文本,但得到了一些奇怪的字符。奇怪的是,Okular 可以识别文本,但不能使用 Sumatra PDF 或 Adob​​e,所有三个应用程序都安装在 Windows 10 64 位。为了更好地解释我的问题,这里是视频https://streamable.com/sw1hc。“文本层解决方法文件”是我得到的一种解决方案。任何帮助是极大的赞赏。问候

pdf copy-paste

4
推荐指数
1
解决办法
6579
查看次数

pdf通过java中的pdfbox阅读

我在使用pdfbox阅读pdf时遇到了问题.我的实际pdf是部分不可读的,所以当我在编辑器中复制并粘贴不可读的部分时,它会显示小盒符号,但当我尝试通过pdfbox读取相同的文件时,这些字符不会被读取(我不指望它们待读).我期望的是,我至少得到一些符号或一些随机字符而不是实际字符.有没有办法做到这一点.该行已被选中,因此它不是图像.有没有人找到任何解决方法?

有一个pdfbox示例,我们覆盖pdfTextStripper类下的writeString方法以获得一些额外的字体属性.我正在使用该方法来获取我的文本和一些字体属性.所以我的问题是为什么pdfbox不会读取每个字符(它可能会打印出乱码).但就我而言,我算了一下.调用该方法的次数(每个方法调用对应于每个字符)并看到没有.方法调用确实与输出文本中的no.of字符匹配,但与总数没有匹配.pdf中的字符.这是一个示例pdf,单词"Profit"是不可读的,pdf甚至不显示这个单词的乱码,它只是完全跳过它.这是链接. https://drive.google.com/file/d/0B_Ke2amBgdpedUNwVTR3RVlRTFE/view?usp=sharing

java pdf pdfbox

2
推荐指数
1
解决办法
2850
查看次数

如何使用Python的PyPDF2库从PDF文件中删除水印

我编写了一个代码,使用 Python 和 PyPDF2 lib 从 PDF 文件中提取文本。\n代码适用于大多数文档,但有时它会返回一些奇怪的字符。我认为那是因为 PDF 页面上有水印,所以它无法识别文本:

\n
import requests\nfrom io import StringIO, BytesIO\nimport PyPDF2\n\ndef pdf_content_extraction(pdf_link):\n\n    all_pdf_content = ''\n\n    #sending requests\n    response = requests.get(pdf_link)\n    my_raw_data = response.content\n\n\n    pdf_file_text = 'PDF File: ' + pdf_link + '\\n\\n'\n    #extract text page by page\n    with BytesIO(my_raw_data) as data:\n        read_pdf = PyPDF2.PdfFileReader(data)\n\n        #looping trough each page\n        for page in range(read_pdf.getNumPages()):\n            page_content = read_pdf.getPage(page).extractText()\n            page_content = page_content.replace("\\n\\n\\n", "\\n").strip()\n\n            #store data into variable for each page\n            pdf_file_text += page_content + '\\n\\nPAGE '+ str(page+1) …
Run Code Online (Sandbox Code Playgroud)

python pdf

2
推荐指数
1
解决办法
5288
查看次数

标签 统计

pdf ×4

pdfbox ×4

java ×2

python ×2

unicode ×2

apache-tika ×1

copy-paste ×1

itext ×1

parsing ×1

pdf-parsing ×1