相关疑难解决方法(0)

哪些是将PDF文件转换为文本的最佳Python模块？

378
推荐指数

9
解决办法

32万
查看次数

我正在寻找一个pdf和MS office文档格式的解析器来从文件中提取表格信息.当我看到Apache Tika时,正在考虑编写单独的实现.我可以从任何这些文件格式中提取全文.但我的要求是提取表格数据,我希望在键值格式中有2列.我检查了网络中可用的大部分内容,但找不到任何解决方案.有什么指针吗？

6
推荐指数

2
解决办法

5017
查看次数

我想从pdf 文档中提取一个表

我尝试了pdf的路线 - > html - >提取表.转换为html时我上面提到的pdf产生垃圾,可能是因为字体,文件不是英文的.

因为这样的解决方案需要从URL上面提到的,这将有表,但不总是在相同的位置未来的PDF工作用x提取PDF和y坐标是不是一种选择.

请帮忙,

提前致谢.

3
推荐指数

1
解决办法

7715
查看次数

pdf ×2