相关疑难解决方法(0)

关于解析 pdf 时没有 Unicode 映射错误

我有一堆 pdf 文件（来自不同来源），我想从中提取文本（不幸的是无法附加文件）。

当前解析结果：

Tika 默默地返回文本，其中缺少许多所需的数据。
直接使用 PDFBox 会给出一堆警告（见下文），并且还会删除它无法识别的数据
Adobe Acrobat Reader（另存为文本操作）保留原始文档结构，但在有问题的字体处放置“”

到目前为止，我从 PDFBox 中看到的所有警告组合在一起：

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+51 (51) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font HCUDUN+DroidSerif-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+55 …

Run Code Online (Sandbox Code Playgroud)

unicode parsing pdf-parsing pdfbox apache-tika

exe*_*nza

2020 08-11

6
推荐指数

0
解决办法

4960
查看次数

修复 PDF 中丢失的 ToUniCode 映射

我有一个 pdf 文件，我想从中提取文本。但由于缺少 toUniCode 地图，我无法做到。

./pdffonts /Users/subhashlengare/Downloads/pqr39_abc.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
ATRTHG+TT1CABt00                     TrueType          yes yes no      23  0
VFQVYH+TT1CAEt00                     TrueType          yes yes no      19  0
ODNMDG+TT1CAFt00                     TrueType          yes yes no      31  0
DXGYRQ+TT1CB0t00                     TrueType          yes yes no      27  0
VFQVYH+TT1CB1t00                     TrueType          yes yes no       7  0
ArialMT                              TrueType          no  no  no     295  0
NXBBUP+TT1CC0t00                     TrueType          yes yes no      53  0
NXBBUP+TT1CC1t00                     TrueType          yes yes no      65  0
KDGXKF+TT1CC4t00                     TrueType          yes yes …

Run Code Online (Sandbox Code Playgroud)

pdf itext pdfbox

sub*_*g26

lucky-day

5
推荐指数

0
解决办法

1053
查看次数

如何解决来自 PDFBox 的无 unicode 映射错误？

我有一个现有的 PDF 文件，我想使用 python 脚本将其转换为 excel 文件。当前使用 PDFBox，但是有多个类似以下的错误：

org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
No Unicode mapping for CID+24 (24) in font DroidSansFallback

Run Code Online (Sandbox Code Playgroud)

我可以使用 pdfbox 或其他 java/python 脚本替换 droidsansfallback 字体或将字体替换为另一种字体吗？请帮忙。

python java unicode pdfbox

She*_*lda

lucky-day

5
推荐指数

1
解决办法

4944
查看次数

PDF 复制文本问题：奇怪的字符

我试图从 PDF 文件中复制文本，但得到了一些奇怪的字符。奇怪的是，Okular 可以识别文本，但不能使用 Sumatra PDF 或 Adobe，所有三个应用程序都安装在 Windows 10 64 位。为了更好地解释我的问题，这里是视频https://streamable.com/sw1hc。“文本层解决方法文件”是我得到的一种解决方案。任何帮助是极大的赞赏。问候

pdf copy-paste

ari*_*cfa

lucky-day

4
推荐指数

1
解决办法

6579
查看次数

pdf通过java中的pdfbox阅读

我在使用pdfbox阅读pdf时遇到了问题.我的实际pdf是部分不可读的,所以当我在编辑器中复制并粘贴不可读的部分时,它会显示小盒符号,但当我尝试通过pdfbox读取相同的文件时,这些字符不会被读取(我不指望它们待读).我期望的是,我至少得到一些符号或一些随机字符而不是实际字符.有没有办法做到这一点.该行已被选中,因此它不是图像.有没有人找到任何解决方法？

有一个pdfbox示例,我们覆盖pdfTextStripper类下的writeString方法以获得一些额外的字体属性.我正在使用该方法来获取我的文本和一些字体属性.所以我的问题是为什么pdfbox不会读取每个字符(它可能会打印出乱码).但就我而言,我算了一下.调用该方法的次数(每个方法调用对应于每个字符)并看到没有.方法调用确实与输出文本中的no.of字符匹配,但与总数没有匹配.pdf中的字符.这是一个示例pdf,单词"Profit"是不可读的,pdf甚至不显示这个单词的乱码,它只是完全跳过它.这是链接. https://drive.google.com/file/d/0B_Ke2amBgdpedUNwVTR3RVlRTFE/view?usp=sharing

java pdf pdfbox

ANK*_*KIT

2016 06-17

2
推荐指数

1
解决办法

2850
查看次数

如何使用Python的PyPDF2库从PDF文件中删除水印

我编写了一个代码，使用 Python 和 PyPDF2 lib 从 PDF 文件中提取文本。\n代码适用于大多数文档，但有时它会返回一些奇怪的字符。我认为那是因为 PDF 页面上有水印，所以它无法识别文本：

import requests\nfrom io import StringIO, BytesIO\nimport PyPDF2\n\ndef pdf_content_extraction(pdf_link):\n\n    all_pdf_content = ''\n\n    #sending requests\n    response = requests.get(pdf_link)\n    my_raw_data = response.content\n\n\n    pdf_file_text = 'PDF File: ' + pdf_link + '\\n\\n'\n    #extract text page by page\n    with BytesIO(my_raw_data) as data:\n        read_pdf = PyPDF2.PdfFileReader(data)\n\n        #looping trough each page\n        for page in range(read_pdf.getNumPages()):\n            page_content = read_pdf.getPage(page).extractText()\n            page_content = page_content.replace("\\n\\n\\n", "\\n").strip()\n\n            #store data into variable for each page\n            pdf_file_text += page_content + '\\n\\nPAGE '+ str(page+1) …

Run Code Online (Sandbox Code Playgroud)

python pdf

tag*_*aga

2021 03-10

2
推荐指数

1
解决办法

5288
查看次数