Joa*_*Mok 1 python tabular pdf-extraction
我使用 Pdfplumber 提取第 2 页第 3 节(通常)上的表格。但它仅适用于某些 pdf,其他则不起作用。对于失败的 pdf 文件,似乎 Pdfplumber 读取按钮表而不是我想要的表。
我怎样才能拿到桌子?无效的pdf链接: pdfA
有效的pdf链接: pdfB
这是我的代码:
import pdfplumber
pdf = pdfplumber.open("/Users/chueckingmok/Desktop/selenium/Shell Omala 68.pdf")
page = pdf.pages[1]
table=page.extract_table()
import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
df
Run Code Online (Sandbox Code Playgroud)
但是,此代码适用于 pdfB(我在上面提到过)。
顺便说一句,我想要在每个 pdf 中的表格在第 3 节中。
任何人都可以帮忙吗?
非常感谢琼
嘿,这是该问题的正确解决方案,但首先请阅读我下面的一些观点
以下是您问题的解决方案,
import pandas as pd
import pdfplumber
pdf = pdfplumber.open("GSAP_msds_01259319.pdf")
p1 = pdf.pages[1]
table = p1.extract_table(table_settings={"vertical_strategy": "lines",
"horizontal_strategy": "text",
"snap_tolerance": 4,})
df = pd.DataFrame(table[1:], columns=table[0])
df
Run Code Online (Sandbox Code Playgroud)