我正在尝试解析一些包含工程图的PDF文件,以获取文件中的文本数据。我尝试将TIKA用作python罐子,并将其与jnius包一起使用(在此处使用本教程:http : //www.hackzine.org/using-apache-tika-from-python-with-jnius.html),但是代码抛出错误。
但是,使用TIKA包,我可以传递文件并解析它们,但是Python只能提取元数据,并且当要求解析内容时,Python返回输出“ none”。它能够完美地解析.txt文件,但无法提取PDF的内容。这是代码
import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('/path/to/file')
print parsed["metadata"]
print parsed["content"]
Run Code Online (Sandbox Code Playgroud)
我是否需要其他程序包/代码行才能提取数据?