我有一堆 pdf 文件(来自不同来源),我想从中提取文本(不幸的是无法附加文件)。
当前解析结果:
到目前为止,我从 PDFBox 中看到的所有警告组合在一起:
Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+51 (51) in font AUDQZE+OpenSans-Identity-H
Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font HCUDUN+DroidSerif-Identity-H
Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font AUDQZE+OpenSans-Identity-H
Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+55 …Run Code Online (Sandbox Code Playgroud) 我有一个 pdf 文件,我想从中提取文本。但由于缺少 toUniCode 地图,我无法做到。
./pdffonts /Users/subhashlengare/Downloads/pqr39_abc.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
ATRTHG+TT1CABt00 TrueType yes yes no 23 0
VFQVYH+TT1CAEt00 TrueType yes yes no 19 0
ODNMDG+TT1CAFt00 TrueType yes yes no 31 0
DXGYRQ+TT1CB0t00 TrueType yes yes no 27 0
VFQVYH+TT1CB1t00 TrueType yes yes no 7 0
ArialMT TrueType no no no 295 0
NXBBUP+TT1CC0t00 TrueType yes yes no 53 0
NXBBUP+TT1CC1t00 TrueType yes yes no 65 0
KDGXKF+TT1CC4t00 TrueType yes yes …Run Code Online (Sandbox Code Playgroud) 我有一个现有的 PDF 文件,我想使用 python 脚本将其转换为 excel 文件。当前使用 PDFBox,但是有多个类似以下的错误:
org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
No Unicode mapping for CID+24 (24) in font DroidSansFallback
Run Code Online (Sandbox Code Playgroud)
我可以使用 pdfbox 或其他 java/python 脚本替换 droidsansfallback 字体或将字体替换为另一种字体吗?请帮忙。
我试图从 PDF 文件中复制文本,但得到了一些奇怪的字符。奇怪的是,Okular 可以识别文本,但不能使用 Sumatra PDF 或 Adobe,所有三个应用程序都安装在 Windows 10 64 位。为了更好地解释我的问题,这里是视频https://streamable.com/sw1hc。“文本层解决方法文件”是我得到的一种解决方案。任何帮助是极大的赞赏。问候
我在使用pdfbox阅读pdf时遇到了问题.我的实际pdf是部分不可读的,所以当我在编辑器中复制并粘贴不可读的部分时,它会显示小盒符号,但当我尝试通过pdfbox读取相同的文件时,这些字符不会被读取(我不指望它们待读).我期望的是,我至少得到一些符号或一些随机字符而不是实际字符.有没有办法做到这一点.该行已被选中,因此它不是图像.有没有人找到任何解决方法?
有一个pdfbox示例,我们覆盖pdfTextStripper类下的writeString方法以获得一些额外的字体属性.我正在使用该方法来获取我的文本和一些字体属性.所以我的问题是为什么pdfbox不会读取每个字符(它可能会打印出乱码).但就我而言,我算了一下.调用该方法的次数(每个方法调用对应于每个字符)并看到没有.方法调用确实与输出文本中的no.of字符匹配,但与总数没有匹配.pdf中的字符.这是一个示例pdf,单词"Profit"是不可读的,pdf甚至不显示这个单词的乱码,它只是完全跳过它.这是链接. https://drive.google.com/file/d/0B_Ke2amBgdpedUNwVTR3RVlRTFE/view?usp=sharing
我编写了一个代码,使用 Python 和 PyPDF2 lib 从 PDF 文件中提取文本。\n代码适用于大多数文档,但有时它会返回一些奇怪的字符。我认为那是因为 PDF 页面上有水印,所以它无法识别文本:
\nimport requests\nfrom io import StringIO, BytesIO\nimport PyPDF2\n\ndef pdf_content_extraction(pdf_link):\n\n all_pdf_content = ''\n\n #sending requests\n response = requests.get(pdf_link)\n my_raw_data = response.content\n\n\n pdf_file_text = 'PDF File: ' + pdf_link + '\\n\\n'\n #extract text page by page\n with BytesIO(my_raw_data) as data:\n read_pdf = PyPDF2.PdfFileReader(data)\n\n #looping trough each page\n for page in range(read_pdf.getNumPages()):\n page_content = read_pdf.getPage(page).extractText()\n page_content = page_content.replace("\\n\\n\\n", "\\n").strip()\n\n #store data into variable for each page\n pdf_file_text += page_content + '\\n\\nPAGE '+ str(page+1) …Run Code Online (Sandbox Code Playgroud) pdf ×4
pdfbox ×4
java ×2
python ×2
unicode ×2
apache-tika ×1
copy-paste ×1
itext ×1
parsing ×1
pdf-parsing ×1