相关疑难解决方法(0)

如何从命令行中将PDF数据从PDF中提取出来？

我想从这里提取所有行,同时忽略列标题以及所有页面标题,即Supported Devices.

pdftotext -layout DAC06E7D1302B790429AF6E84696FCFAB20B.pdf - \
 | sed '$d'                                                  \
 | sed -r 's/ +/,/g; s/ //g'                                 \
 > output.csv

Run Code Online (Sandbox Code Playgroud)

生成的文件应采用CSV电子表格格式(逗号分隔值字段).

换句话说,我想改进上面的命令,以便输出根本不会制动.有任何想法吗？

pdf grep pdftotext

use*_*838

2015 05-21

14
推荐指数

3
解决办法

1万
查看次数

如何使用tabula-py将PDF转换为CSV？

在Python 3中，我有一个PDF文件“ Ativos_Fevereiro_2018_servidores_rj.pdf”，具有6,041页。我在使用Ubuntu的计算机上

在每个页面的顶部，两行都是文本。在表格下方，带有标题和两列。每个表36行，最后一页较少

在每页末尾，表格之后，还有一行文字

我想从此PDF创建CSV，只考虑页面中的表格。并忽略表格前后的文字

最初，我测试了表格。但是它生成一个空文件：

from tabula import convert_into

convert_into("Ativos_Fevereiro_2018_servidores_rj.pdf", "test_s.csv", output_format="csv")

Run Code Online (Sandbox Code Playgroud)

拜托，有人知道这种方法可以使用tabula-py吗？

还是将这种文件类型的PDF转换为CSV的另一种方法？

python csv pdf tabula

Rei*_*ves

lucky-day

7
推荐指数

1
解决办法

2万
查看次数

标签统计

pdf ×2

csv ×1

grep ×1

pdftotext ×1

python ×1

tabula ×1

如何从命令行中将PDF数据从PDF中提取出来？

如何使用tabula-py将PDF转换为CSV？

标签 统计

标签统计