小编Abh*_*k.A的帖子

如何在python(2.7)中使用Tika软件包(https://github.com/chrismattmann/tika-python)解析PDF文件?

我正在尝试解析一些包含工程图的PDF文件,以获取文件中的文本数据。我尝试将TIKA用作python罐子,并将其与jnius包一起使用(在此处使用本教程:http : //www.hackzine.org/using-apache-tika-from-python-with-jnius.html),但是代码抛出错误。

但是,使用TIKA包,我可以传递文件并解析它们,但是Python只能提取元数据,并且当要求解析内容时,Python返回输出“ none”。它能够完美地解析.txt文件,但无法提取PDF的内容。这是代码

import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('/path/to/file')
print parsed["metadata"]
print parsed["content"]
Run Code Online (Sandbox Code Playgroud)

我是否需要其他程序包/代码行才能提取数据?

python pdf parsing apache-tika

1
推荐指数
2
解决办法
1万
查看次数

标签 统计

apache-tika ×1

parsing ×1

pdf ×1

python ×1