我在mac中下载了PDFtoText,并编写了以下代码将pdf文件转换为文本:
pdf_to_load =("~/my_directory/my.pdf")
system(paste('pdftotext', pdf_to_load))
Run Code Online (Sandbox Code Playgroud)
代码运行良好,但我无法在源目录中看到my.txt,也没有将其保存在文件夹中的任何位置.哪里出错了?
我的一位导师能够在他的计算机上运行相同的代码,他能够看到转换后的.txt文件.
请指导.
如果在您的计算机上找不到默认的PDF提取引擎,则会得到错误的结果,请参阅?tm::readPDF.这些引擎不是R或tm包的一部分,它取决于您的计算机是否已安装必要的程序.
最简单的解决方案是安装程序pdftotext和pdfinfo(你需要两者),你可以在这里获得预编译的二进制文件.
正确安装这些程序后,您应该能够通过使用程序包的readPDF()功能,在没有系统调用的情况下提取PDF文件的文本tm
library(tm)
my_pdf_txt <- readPDF(control=list(text="-layout"))(elem=list(uri="~/my_directory/my.pdf"), language="en")
Run Code Online (Sandbox Code Playgroud)