wns*_*mth 12 python pdf parsing scraper node.js
我有大约1,500个PDF,每个只包含1页,并展示相同的结构(例如,请参阅http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf).
我正在寻找的是迭代所有这些文件(如果可能在本地)并提取表的实际内容(作为CSV,存储到SQLite DB,无论如何)的方法.
我很乐意在Node.js中这样做,但找不到任何合适的库来解析这些东西.你知道吗?
如果在Node.js中不可能,我也可以用Python编写它,如果有更好的方法可用.
And*_*son 17
我以前不知道这一点,但less有这种神奇的能力来阅读pdf文件.我能够使用以下脚本从示例pdf中提取表数据:
import subprocess
import re
output = subprocess.check_output(["less","BAG_15m_kzh_2012_de.pdf"])
re_data_prefix = re.compile("^[0-9]+[.].*$")
re_data_fields = re.compile("(([^ ]+[ ]?)+)")
for line in output.splitlines():
if re_data_prefix.match(line):
print [l[0].strip() for l in re_data_fields.findall(line)]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
9304 次 |
| 最近记录: |