我正在尝试pdf
使用tabulizer
中的包从 a 中提取表R
。我运行以下行:
table <- extract_tables('https://fm.dk/media/17137/oekonomisk-redegoerelse-august-2019_weba.pdf', pages = 20)
Run Code Online (Sandbox Code Playgroud)
但是我不断收到此错误:
.jcall("RJavaTools", "Ljava/lang/Object;", "invokeMethod", cl, 中的错误:java.lang.IllegalAccessException:类 RJavaTools 无法访问类 java.util.ArrayList$Itr 的成员(在模块 java 中) .base) 带有修饰符“public”
我能够从 中提取元数据pdf
,所以我很确定这不是软件包安装的问题tabulizer
,而是一个java问题,我对此不是很有经验。
我有一个包含多页的 pdf 文件,但我只对其中的一个子组感兴趣。例如,我的原始 PDF 有 30 页,而我只想要第 10 到 16 页。
我尝试使用 tabulizer 包中的 split_pdf 函数,它只将 pdf 页面拆分到页面(导致 200 个文件,每个页面一个),然后是 merge_pdfs(合并 pdf 文件)。它工作正常,但需要很长时间(我必须拆分大约 2000 个 pdf 文件)。
这是我正在使用的代码:
split = split_pdf('file_path')
start = 10
end = 16
merge_pdfs(split[start:end], 'saving_path')
Run Code Online (Sandbox Code Playgroud)
我找不到任何更好的选择来做到这一点。任何帮助将不胜感激。
我有一个与 tabulizer 一起使用的脚本,但必须清理我的硬盘并重新安装 R,现在我什至无法下载和访问 tabulizer 库。我现在使用 R 版本 4.1.2 64 位,我想也许我需要使用早期版本的 R???这是我尝试安装 tabulizer 时收到的错误消息。
\ninstall.packages("tabulizer")\nInstalling package into \xe2\x80\x98C:/Users/cdonner/Documents/R/win-library/4.1\xe2\x80\x99\n(as \xe2\x80\x98lib\xe2\x80\x99 is unspecified)\nWarning in install.packages :\n package \xe2\x80\x98tabulizer\xe2\x80\x99 is not available for this version of R\n\nA version of this package for your version of R might be available elsewhere,\nsee the ideas at\nhttps://cran.r-project.org/doc/manuals/r-patched/R-admin.html#Installing-packages\n
Run Code Online (Sandbox Code Playgroud)\n我尝试去 Cran ( https://cran.r-project.org/src/contrib/Archive/tabulizer/ ) 并将库下载并解压到我的目录中,但随后我再次收到错误。有任何想法吗?谢谢。
\n我正在使用 R 版本 3.4.0。我的电脑是 64 位 Windows 10。
\n\n我想在 R 中从 PDF 文档中提取数据帧。
\n\n我尝试使用 github 安装 tabulizer 包,但出现以下错误。
\n\n> ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer"), INSTALL_opts = "--no-multiarch")\nalso installing the dependencies \xe2\x80\x98httpuv\xe2\x80\x99, \xe2\x80\x98sourcetools\xe2\x80\x99\n\nalso installing the dependency \xe2\x80\x98rJava\xe2\x80\x99\n\nropenscilabs/tabulizerjars ropenscilabs/tabulizer \n NA NA \nThere were 14 warnings (use warnings() to see them)\n> library("tabulizer")\nError in library("tabulizer") : there is no package called \xe2\x80\x98tabulizer\xe2\x80\x99\n
Run Code Online (Sandbox Code Playgroud)\n\n警告如下:
\n\n> warnings()\nWarning messages:\n1: running command \'"C:/PROGRA~1/R/R-34~1.0/bin/x64/R" CMD INSTALL -l "C:\\Users\\akshay\\Documents\\R\\win-library\\3.4" C:\\Users\\akshay\\AppData\\Local\\Temp\\Rtmp6RtCtU/downloaded_packages/httpuv_1.3.3.tar.gz\' had status 1\n2: In utils::install.packages(suggests, type = …
Run Code Online (Sandbox Code Playgroud)