我想从这里提取所有行,同时忽略列标题以及所有页面标题,即Supported Devices.
pdftotext -layout DAC06E7D1302B790429AF6E84696FCFAB20B.pdf - \
| sed '$d' \
| sed -r 's/ +/,/g; s/ //g' \
> output.csv
Run Code Online (Sandbox Code Playgroud)
生成的文件应采用CSV电子表格格式(逗号分隔值字段).
换句话说,我想改进上面的命令,以便输出根本不会制动.有任何想法吗?
在Python 3中,我有一个PDF文件“ Ativos_Fevereiro_2018_servidores_rj.pdf”,具有6,041页。我在使用Ubuntu的计算机上
在每个页面的顶部,两行都是文本。在表格下方,带有标题和两列。每个表36行,最后一页较少
在每页末尾,表格之后,还有一行文字
我想从此PDF创建CSV,只考虑页面中的表格。并忽略表格前后的文字
最初,我测试了表格。但是它生成一个空文件:
from tabula import convert_into
convert_into("Ativos_Fevereiro_2018_servidores_rj.pdf", "test_s.csv", output_format="csv")
Run Code Online (Sandbox Code Playgroud)
拜托,有人知道这种方法可以使用tabula-py吗?
还是将这种文件类型的PDF转换为CSV的另一种方法?