相关疑难解决方法(0)

pdfminer.high_level 未显示

我正在尝试使用 .pdf 文件将 PDF 转换为纯文本pdfminer.high_level.extract_text()。我不断收到此错误消息:

File "/Users/ian/Documents/Resume Selector Project/resumeBackend.py", line 5, in digestResume
    text = pdfminer.high_level.extract_text
AttributeError: module 'pdfminer' has no attribute 'high_level'
Run Code Online (Sandbox Code Playgroud)

起初,我认为这可能是我的模块未在系统范围内安装的问题,但我相信我已经通过在项目所在的同一目录中运行 pdf2txt.py 消除了这个可能的原因。

我将附上我的代码,以方便解决此问题。

File "/Users/ian/Documents/Resume Selector Project/resumeBackend.py", line 5, in digestResume
    text = pdfminer.high_level.extract_text
AttributeError: module 'pdfminer' has no attribute 'high_level'
Run Code Online (Sandbox Code Playgroud)

python module python-3.x pdfminer

10
推荐指数
1
解决办法
1万
查看次数

PDFminer:使用其字体信息提取文本

我发现这个问题,但它使用命令行,我不想使用子进程在命令行中调用Python脚本并解析HTML文件以获取字体信息.

我想使用PDFminer作为库,我发现这个问题,但它们只是提取纯文本,没有其他信息,如字体名称,字体大小等.

python text-extraction pdfminer

8
推荐指数
3
解决办法
9070
查看次数

从 PDF 中提取文本的格式(字体大小、类型等)

是否可以从 PDF 文件中提取有关特定字体/字体大小/字体颜色等的文本?我更喜欢 Perl、python 或 *nix 命令行实用程序。我的目标是从 PDF 文件中提取所有标题,这样我就可以在单个 PDF 中获得一个很好的文章索引。

pdf fonts extract font-size

7
推荐指数
1
解决办法
7887
查看次数