相关疑难解决方法(0)

将像素转换为点数

我需要将像素转换为C#中的Points.我已经看到了关于这个主题的一些复杂的解释,但似乎找不到一个简单的公式.让我们假设一个标准的96dpi,我如何计算这个转换？

.net c# point pixel

Tod*_*vis

2012 01-15

122
推荐指数

6
解决办法

20万
查看次数

如何将pdfminer用作库

我正在尝试使用pdfminer从pdf获取文本数据.我可以使用pdfminer命令行工具pdf2txt.py成功将此数据提取到.txt文件.我目前这样做,然后使用python脚本来清理.txt文件.我想将pdf提取过程合并到脚本中并为自己节省一步.

当我找到这个链接时,我以为我正在做某件事,但我没有成功解决任何问题.也许那里列出的功能需要再次更新,因为我使用的是更新版本的pdfminer.

我也尝试过这里显示的功能,但它也没有用.

我尝试的另一种方法是使用脚本在脚本中调用脚本os.system.这也是不成功的.

我使用的是Python 2.7.1版本和pdfminer版本20110227.

python pdf pdfminer

jme*_*ich

2017 05-23

65
推荐指数

6
解决办法

7万
查看次数

如何从PDF文件中提取文本和文本坐标？

我想用PDFMiner从PDF文件中提取所有文本框和文本框坐标.

许多其他Stack Overflow帖子解决了如何以有序方式提取所有文本,但是如何进行获取文本和文本位置的中间步骤？

给定一个PDF文件,输出应该类似于:

   489, 41,  "Signature"
   500, 52,  "b"
   630, 202, "a_g_i_r"

Run Code Online (Sandbox Code Playgroud)

python pdf pdfminer

pnj*_*pnj

2018 11-17

21
推荐指数

3
解决办法

2万
查看次数

如何使用PDFMiner获取PDF中文本的位置？

PDFMiner的文档说:

PDFMiner允许人们获取页面中文本的确切位置

但是,我还没有找到如何做到这一点.PDFMiner的'文档'相当稀疏,所以我不明白如何做到这一点.

python pdf position pdfminer

Gly*_*can

lucky-day

16
推荐指数

1
解决办法

1万
查看次数

如何使用python代码找到PDF文件每个段落的字体大小？

现在我正在做一个项目，我必须找到该 PDF 文件中每个段落的字体大小。我尝试过各种Python库，如fitz、PyPDF2、pdfrw、pdfminer、pdfreader。所有库都会获取文本数据，但我不知道如何获取段落的字体大小。预先感谢..感谢您的帮助。

我已经尝试过，但未能获得字体大小。

import fitz

filepath = '/home/user/Downloads/abc.pdf'
text = ''
with fitz.open(filepath ) as doc:
    for page in doc:
        text+= page.getText()
print(text)

Run Code Online (Sandbox Code Playgroud)

python pdf fonts font-size

V J*_*V J

lucky-day

6
推荐指数

1
解决办法

9765
查看次数

PDF miner - 提取字体大小？

我很好奇是否可以使用 pdfminer 来提取字体大小。我认为这将有助于分离不同的部分。我知道下面有讨论，但我很好奇是否可以使用 pdfminer

从 PDF 中提取关于格式（字体大小、类型等）的文本

pdfminer 文档说这是可能的http://www.unixuser.org/~euske/python/pdfminer/

但是当我在命令行中输入 he following 时，我只得到一个纯文本文档。我没有看到任何字体信息。

pdf2txt.py -o output.html samples/CentolaCV.pdf

Run Code Online (Sandbox Code Playgroud)

例如..

2008-13  Assistant Professor, Sloan School of Management, M.I.T.  

2006-08   Robert Wood Johnson Scholar in Health Policy, Harvard University 

2001-02   Visiting Scholar, The Brookings Institution

Run Code Online (Sandbox Code Playgroud)

python pdf fonts

use*_*418

2017 05-23

3
推荐指数

2
解决办法

9777
查看次数