相关疑难解决方法(0)

如何使用python代码找到PDF文件每个段落的字体大小?

现在我正在做一个项目,我必须找到该 PDF 文件中每个段落的字体大小。我尝试过各种Python库,如fitz、PyPDF2、pdfrw、pdfminer、pdfreader。所有库都会获取文本数据,但我不知道如何获取段落的字体大小。预先感谢..感谢您的帮助。

我已经尝试过,但未能获得字体大小。

import fitz

filepath = '/home/user/Downloads/abc.pdf'
text = ''
with fitz.open(filepath ) as doc:
    for page in doc:
        text+= page.getText()
print(text)
Run Code Online (Sandbox Code Playgroud)

python pdf fonts font-size

6
推荐指数
1
解决办法
9765
查看次数

PDF miner - 提取字体大小?

我很好奇是否可以使用 pdfminer 来提取字体大小。我认为这将有助于分离不同的部分。我知道下面有讨论,但我很好奇是否可以使用 pdfminer

从 PDF 中提取关于格式(字体大小、类型等)的文本

pdfminer 文档说这是可能的http://www.unixuser.org/~euske/python/pdfminer/

但是当我在命令行中输入 he following 时,我只得到一个纯文本文档。我没有看到任何字体信息。

pdf2txt.py -o output.html samples/CentolaCV.pdf
Run Code Online (Sandbox Code Playgroud)

例如..

2008-13  Assistant Professor, Sloan School of Management, M.I.T.  

2006-08   Robert Wood Johnson Scholar in Health Policy, Harvard University 

2001-02   Visiting Scholar, The Brookings Institution
Run Code Online (Sandbox Code Playgroud)

python pdf fonts

3
推荐指数
2
解决办法
9777
查看次数

标签 统计

fonts ×2

pdf ×2

python ×2

font-size ×1