小编Joa*_*Mok的帖子

Pdfplumber 无法识别表 python

我使用 Pdfplumber 提取第 2 页第 3 节(通常)上的表格。但它仅适用于某些 pdf,其他则不起作用。对于失败的 pdf 文件,似乎 Pdfplumber 读取按钮表而不是我想要的表。

我怎样才能拿到桌子?无效的pdf链接: pdfA

有效的pdf链接: pdfB

这是我的代码:

import pdfplumber
pdf = pdfplumber.open("/Users/chueckingmok/Desktop/selenium/Shell Omala 68.pdf")
page = pdf.pages[1]
table=page.extract_table()

import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
df
Run Code Online (Sandbox Code Playgroud)

结果是 在此处输入图片说明

但是我想要在第 2 页中的表格是 在此处输入图片说明

但是,此代码适用于 pdfB(我在上面提到过)。

顺便说一句,我想要在每个 pdf 中的表格在第 3 节中。

任何人都可以帮忙吗?

非常感谢琼

python tabular pdf-extraction

1
推荐指数
1
解决办法
3400
查看次数

标签 统计

pdf-extraction ×1

python ×1

tabular ×1