相关疑难解决方法(0)

如何从命令行中将PDF数据从PDF中提取出来?

我想从这里提取所有行,同时忽略列标题以及所有页面标题,即Supported Devices.

pdftotext -layout DAC06E7D1302B790429AF6E84696FCFAB20B.pdf - \
 | sed '$d'                                                  \
 | sed -r 's/ +/,/g; s/ //g'                                 \
 > output.csv
Run Code Online (Sandbox Code Playgroud)

生成的文件应采用CSV电子表格格式(逗号分隔值字段).

换句话说,我想改进上面的命令,以便输出根本不会制动.有任何想法吗?

pdf grep pdftotext

14
推荐指数
3
解决办法
1万
查看次数

如何使用tabula-py将PDF转换为CSV?

在Python 3中,我有一个PDF文件“ Ativos_Fevereiro_2018_servidores_rj.pdf”,具有6,041页。我在使用Ubuntu的计算机上

在每个页面的顶部,两行都是文本。在表格下方,带有标题和两列。每个表36行,最后一页较少

在每页末尾,表格之后,还有一行文字

我想从此PDF创建CSV,只考虑页面中的表格。并忽略表格前后的文字

最初,我测试了表格。但是它生成一个空文件:

from tabula import convert_into

convert_into("Ativos_Fevereiro_2018_servidores_rj.pdf", "test_s.csv", output_format="csv")
Run Code Online (Sandbox Code Playgroud)

拜托,有人知道这种方法可以使用tabula-py吗?

还是将这种文件类型的PDF转换为CSV的另一种方法?

python csv pdf tabula

7
推荐指数
1
解决办法
2万
查看次数

标签 统计

pdf ×2

csv ×1

grep ×1

pdftotext ×1

python ×1

tabula ×1