相关疑难解决方法(0)

如何从PDF文件中提取文本和文本坐标？

我想用PDFMiner从PDF文件中提取所有文本框和文本框坐标.

许多其他Stack Overflow帖子解决了如何以有序方式提取所有文本,但是如何进行获取文本和文本位置的中间步骤？

给定一个PDF文件,输出应该类似于:

   489, 41,  "Signature"
   500, 52,  "b"
   630, 202, "a_g_i_r"

Run Code Online (Sandbox Code Playgroud)

python pdf pdfminer

pnj*_*pnj

2018 11-17

21
推荐指数

3
解决办法

2万
查看次数

PDFminer:使用其字体信息提取文本

我发现这个问题,但它使用命令行,我不想使用子进程在命令行中调用Python脚本并解析HTML文件以获取字体信息.

我想使用PDFminer作为库,我发现这个问题,但它们只是提取纯文本,没有其他信息,如字体名称,字体大小等.

python text-extraction pdfminer

ari*_*tll

2017 05-23

8
推荐指数

3
解决办法

9070
查看次数

PDF miner - 提取字体大小？

我很好奇是否可以使用 pdfminer 来提取字体大小。我认为这将有助于分离不同的部分。我知道下面有讨论，但我很好奇是否可以使用 pdfminer

从 PDF 中提取关于格式（字体大小、类型等）的文本

pdfminer 文档说这是可能的http://www.unixuser.org/~euske/python/pdfminer/

但是当我在命令行中输入 he following 时，我只得到一个纯文本文档。我没有看到任何字体信息。

pdf2txt.py -o output.html samples/CentolaCV.pdf

Run Code Online (Sandbox Code Playgroud)

例如..

2008-13  Assistant Professor, Sloan School of Management, M.I.T.  

2006-08   Robert Wood Johnson Scholar in Health Policy, Harvard University 

2001-02   Visiting Scholar, The Brookings Institution

Run Code Online (Sandbox Code Playgroud)

python pdf fonts

use*_*418

2017 05-23

3
推荐指数

2
解决办法

9777
查看次数

使用python突出显示pdf文件中的文本内容并保存屏幕截图

我有一个 pdf 文件列表，我需要在这些文件的每一页上突出显示特定文本，并为每个文本实例保存一个快照。

到目前为止，我能够突出显示文本并将pdf文件的整个页面保存为快照。但是，我想找到突出显示文本的位置并放大快照，与整页快照相比，它会更详细。

我很确定这个问题一定有解决方案。我是 Python 的新手，因此我找不到它。如果有人能帮我解决这个问题，我将不胜感激。

我曾尝试使用PyPDF2,Pymupdf库，但我无法找出解决方案。我还尝试通过提供有效的坐标来突出显示，但找不到将这些坐标作为输出获取的方法。

[![Sample snapshot from the code[![\]\[1\]][1]][1]][1]

#import PyPDF2
import os
import fitz
from wand.image import Image
import csv
#import re
#from pdf2image import convert_from_path

check = r'C:\Users\Pradyumna.M\Desktop\Pradyumna\Automation\Intel Bytes\Create Source Docs\Sample Check 8 Apr 2019'

dir1 = check + '\\Source Docs\\'
dir2 = check + '\\Output\\'

dir = [dir1, dir2]

for x in dir:
    try:
        os.mkdir(x)
    except FileExistsError:
        print("Directory ", x, " already exists")

### READ PDF FILE
with open('upload1.csv', …

Run Code Online (Sandbox Code Playgroud)

python pdf pypdf2

God*_*rey

2019 04-16

2
推荐指数

1
解决办法

4305
查看次数