相关疑难解决方法(0)

378
推荐指数
9
解决办法
32万
查看次数

是否可以使用Apache Tika提取表信息?

我正在寻找一个pdf和MS office文档格式的解析器来从文件中提取表格信息.当我看到Apache Tika时,正在考虑编写单独的实现.我可以从任何这些文件格式中提取全文.但我的要求是提取表格数据,我希望在键值格式中有2列.我检查了网络中可用的大部分内容,但找不到任何解决方案.有什么指针吗?

java apache-tika

6
推荐指数
2
解决办法
5017
查看次数

从PDF中提取表格

我想从pdf 文档中提取一个表

我尝试了pdf的路线 - > html - >提取表.转换为html时我上面提到的pdf产生垃圾,可能是因为字体,文件不是英文的.

因为这样的解决方案需要从URL上面提到的,这将有表,但不总是在相同的位置未来的PDF工作用x提取PDF和y坐标是不是一种选择.

请帮忙,

提前致谢.

python pdf pdf-parsing

3
推荐指数
1
解决办法
7715
查看次数