Raj*_*esh 7 pdf pdf-to-html pdftotext
有没有一致的方法从PDF文件中提取表格?有工具吗?
到目前为止我做了什么:
pdftotext工具.它有一个转换为HTML布局的选项.有什么问题:
<table>标签,但一切都在<p>标签下.PDF文档中是否有任何标记表示表格结构?像<table>,<tr>并<td>在HTML?
如果"是",任何对此的指示都会有所帮助.如果"不",关于这个事实的明确信息也是有帮助的.
Fra*_*Rem 13
如果PDF文档错过了将内容标记为表,行,单元格等(称为标记)的信息,则没有一致的方法从PDF文档中提取表.大多数情况下,PDF文档不包含这些标记.这些标签通常用于使PDF可访问,以便例如可以大声朗读.PDF无需使用这些标记.
小智 8
然而,你可以做的是使用pdftotext -layout input.pdf output.txt.它在文本文件中打印pdf并包含原始布局.没有标签,但有一些漂亮的脚本(perl/php /等),你可以从表中恢复数据.
如果您正在处理单个页面,那么您最好手动完成它,但如果您(像我一样)必须处理100页或1000页的页面,那么它就是您可以获得的最佳效果.我一直在寻找很长一段时间,找不到比pdftotext更好的pdf-2文本工具.
输出中存在一些不一致,并非所有类似的pdf表都产生类似的txt输出,但这会使您的脚本更有趣.