小编Abh*_*k.A的帖子

如何在python（2.7）中使用Tika软件包（https://github.com/chrismattmann/tika-python）解析PDF文件？

我正在尝试解析一些包含工程图的PDF文件，以获取文件中的文本数据。我尝试将TIKA用作python罐子，并将其与jnius包一起使用（在此处使用本教程：http : //www.hackzine.org/using-apache-tika-from-python-with-jnius.html），但是代码抛出错误。

但是，使用TIKA包，我可以传递文件并解析它们，但是Python只能提取元数据，并且当要求解析内容时，Python返回输出“ none”。它能够完美地解析.txt文件，但无法提取PDF的内容。这是代码

import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('/path/to/file')
print parsed["metadata"]
print parsed["content"]

Run Code Online (Sandbox Code Playgroud)

我是否需要其他程序包/代码行才能提取数据？

python pdf parsing apache-tika

Abh*_*k.A

lucky-day

1
推荐指数

2
解决办法

1万
查看次数

标签统计

apache-tika ×1

parsing ×1

pdf ×1

python ×1

如何在python（2.7）中使用Tika软件包（https://github.com/chrismattmann/tika-python）解析PDF文件？

标签 统计

小编Abh_k.A的帖子

标签统计