如何使用python代码找到PDF文件每个段落的字体大小?

V J*_*V J 6 python pdf fonts font-size

现在我正在做一个项目,我必须找到该 PDF 文件中每个段落的字体大小。我尝试过各种Python库,如fitz、PyPDF2、pdfrw、pdfminer、pdfreader。所有库都会获取文本数据,但我不知道如何获取段落的字体大小。预先感谢..感谢您的帮助。

我已经尝试过,但未能获得字体大小。

import fitz

filepath = '/home/user/Downloads/abc.pdf'
text = ''
with fitz.open(filepath ) as doc:
    for page in doc:
        text+= page.getText()
print(text)
Run Code Online (Sandbox Code Playgroud)

V J*_*V J 7

我从 pdfminer 得到了解决方案。下面给出了相同的 python 代码。

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar,LTLine,LAParams
import os
path=r'/path/to/pdf'

Extract_Data=[]

for page_layout in extract_pages(path):
    for element in page_layout:
        if isinstance(element, LTTextContainer):
            for text_line in element:
                for character in text_line:
                    if isinstance(character, LTChar):
                        Font_size=character.size
            Extract_Data.append([Font_size,(element.get_text())])
Run Code Online (Sandbox Code Playgroud)