and*_*soj 12
这是一个巨大的麻烦.通常,提取PDF文件的文本内容是针对PDF要求您执行的操作而运行的.
首先尝试将文本输出.这可能或多或少成功,具体取决于PDF的构建方式.一个开始的地方是GhostScript或pstotext.如果失败了,那么这个人就有了一个文本提取工具列表.获得文本流后,您可以尝试以编程方式重新组装表格结构.
最后,如果你的形状非常糟糕,如果PDF不合作,你可以做OCR的事情.正确的长期解决方案是通过执行单个,大规模,痛苦且可能部分手动的过程,在一开始就将数据转换为正确的格式; 或者转到消息来源并建议以更有用的形式提供数据.
如果您可以提供更具体的PDF示例文件,则可能会有更好或更精确的答案......对此没有通用解决方案,如果可能,则需要根据您的特定源数据进行定制.
请注意这个对一般问题的相当尖锐的回答 ......对你面前的问题没有帮助,但是在向老板解释为什么没有明显的答案时,它可能会提供有用的topcover?;-)
出现了一个新的SO问题,并提到了这个库 - iTextSharp - 看起来可能相关.所以问题:提取的最好方法......
有关为什么PDF 文件格式永远不应该被认为适合托管可提取的结构化数据的背景信息,请参阅本文:
对于从 PDF 中提取表格数据(除非它们是扫描页面)的一系列令人惊叹的工具来说,它们每周都变得越来越好,这与“1”点相矛盾。上面看到这些链接:
| 归档时间: |
|
| 查看次数: |
14732 次 |
| 最近记录: |