R Script pdf 使用 pdftools

Bun*_*nty 0 pdf excel r

我正在使用 pdftools 将 pdf 转换为 excel。我想提取表格值。下面的代码工作得很好,但它将所有内容粘贴到行中(我的意思是这些值没有在不同的列中分开 - 我唯一想要的是表格,因为它在 pdf 中(数据和值) . . . 有人可以帮忙写代码吗?也许我们需要一个分隔符?我希望得到一些帮助!下面的 3 张图片:- Excel 输出,预期的 Excel 输出和我正在使用的 PDF。

library(pdftools)
tx<-pdf_text("Path")
tx2<-strsplit(tx,"\n")
library(xlsx)
write.xlsx(tx2,file="ds.xlsx")
Run Code Online (Sandbox Code Playgroud)

And*_*tar 5

尝试这个...

library(pdftools)
library(stringr)
library(xlsx)

tx <- pdf_text("Path")
tx2 <- unlist(str_split(tx, "[\\r\\n]+"))
tx3 <- str_split_fixed(str_trim(tx2), "\\s{2,}", 5)

write.xlsx(tx3, file="ds.xlsx")
Run Code Online (Sandbox Code Playgroud)