相关疑难解决方法(0)

<word xMin="301.703800" yMin="104.483700" xMax="309.697000" yMax="115.283700">is</word>
<word xMin="313.046200" yMin="104.483700" xMax="318.374200" yMax="115.283700">a</word>
<word xMin="321.603400" yMin="104.483700" xMax="365.509000" yMax="115.283700">universal</word>
<word xMin="368.858200" yMin="104.483700" xMax="384.821800" yMax="115.283700">file</word>
<word xMin="388.291000" yMin="104.483700" xMax="420.229000" yMax="115.283700">format</word>

Run Code Online (Sandbox Code Playgroud)

因此，每个单词都有一个边界框。

相比之下，Python 包 PDFminer 似乎只能给出文本块的位置（参见示例）。

如何在 Python 中获取每个单词的边界框？

python pdf

Mar*_*oma

lucky-day

7
推荐指数

1
解决办法

1720
查看次数

任何通过Python突出显示给定单词的pdf文档的方法？

我之前得到了一些关键字，我想通过 python 搜索 pdf 文档并突出显示它们。像pdfMiner这样的库是否可行？

python pdf pdf-generation python-module

ero*_*gol

lucky-day

6
推荐指数

1
解决办法

1887
查看次数

PDF miner - 提取字体大小？

我很好奇是否可以使用 pdfminer 来提取字体大小。我认为这将有助于分离不同的部分。我知道下面有讨论，但我很好奇是否可以使用 pdfminer

从 PDF 中提取关于格式（字体大小、类型等）的文本

pdfminer 文档说这是可能的http://www.unixuser.org/~euske/python/pdfminer/

但是当我在命令行中输入 he following 时，我只得到一个纯文本文档。我没有看到任何字体信息。

pdf2txt.py -o output.html samples/CentolaCV.pdf

Run Code Online (Sandbox Code Playgroud)

例如..

2008-13  Assistant Professor, Sloan School of Management, M.I.T.  

2006-08   Robert Wood Johnson Scholar in Health Policy, Harvard University 

2001-02   Visiting Scholar, The Brookings Institution

Run Code Online (Sandbox Code Playgroud)

python pdf fonts

use*_*418

2017 05-23

3
推荐指数

2
解决办法

9777
查看次数

使用Python阅读PDF并转换为PDF文本

我已使用此代码将pdf转换为文本。

input1 = '//Home//Sai Krishna Dubagunta.pdf'
output = '//Home//Me.txt'
os.system(("pdftotext %s %s") %( input1, output))

Run Code Online (Sandbox Code Playgroud)

我已经创建了Home目录，并将源文件粘贴到其中。

我得到的输出是

Run Code Online (Sandbox Code Playgroud)

并没有创建带有.txt的文件。问题出在哪里？

python pdftotext

Kri*_*hna

lucky-day

2
推荐指数

2
解决办法

2万
查看次数

Python PDF Mining 获取每行文本的位置

我目前正在使用此处的答案中提供的课程：

如何从pdf文件中提取文本和文本坐标？

提供的课程非常有用，因为我可以获取 PDF 中每个文本框的位置。每次文本框中有新行时，给定的类也会插入一个“_”。

我想知道是否有某种方法可以获取文本框中每行文本的位置？

python pdf position

puz*_*123

2017 05-23

2
推荐指数

1
解决办法

9467
查看次数

使用python突出显示pdf文件中的文本内容并保存屏幕截图

我有一个 pdf 文件列表，我需要在这些文件的每一页上突出显示特定文本，并为每个文本实例保存一个快照。

到目前为止，我能够突出显示文本并将pdf文件的整个页面保存为快照。但是，我想找到突出显示文本的位置并放大快照，与整页快照相比，它会更详细。

我很确定这个问题一定有解决方案。我是 Python 的新手，因此我找不到它。如果有人能帮我解决这个问题，我将不胜感激。

我曾尝试使用PyPDF2,Pymupdf库，但我无法找出解决方案。我还尝试通过提供有效的坐标来突出显示，但找不到将这些坐标作为输出获取的方法。

[![Sample snapshot from the code[![\]\[1\]][1]][1]][1]

#import PyPDF2
import os
import fitz
from wand.image import Image
import csv
#import re
#from pdf2image import convert_from_path

check = r'C:\Users\Pradyumna.M\Desktop\Pradyumna\Automation\Intel Bytes\Create Source Docs\Sample Check 8 Apr 2019'

dir1 = check + '\\Source Docs\\'
dir2 = check + '\\Output\\'

dir = [dir1, dir2]

for x in dir:
    try:
        os.mkdir(x)
    except FileExistsError:
        print("Directory ", x, " already exists")

### READ PDF FILE
with open('upload1.csv', …

Run Code Online (Sandbox Code Playgroud)

python pdf pypdf2

God*_*rey

2019 04-16

2
推荐指数

1
解决办法

4305
查看次数