小编Bak*_*kov的帖子

为 13K pdf 文档运行 for 循环时出现空间不足错误

我正在为 13K pdf 文件做 for 循环,在其中读取、预处理文本、查找相似性并写入 txt。但是,当我运行 for 循环时,它给出了一个错误

Error in poppler_pdf_text(loadfile(pdf), opw, upw) : Not enough space

原因是什么?

  1. 我试了加memory_limit(),也不是这个问题。
  2. 我试图删除文件夹中的隐藏文件,例如Thumbs.db,但同样的问题再次出现。
  3. 我在每次迭代时删除 pdf 文件。

folder_path <- "C: ...."
## get vector with all pdf names
pdf_folder <- list.files(folder.path)

## for loop over all pdf documents
for(s in 1:length(pdf_folder)){

   ## choose one pdf document from vector of strings
   pdf_document_name <- pdf_folder[s]

   ## read pdf_document pdf into data.frame
   pdf <- read_pdf(paste0(folder_path,"/",pdf_document_name))

   print(s)

   rm(pdf)

} ## end of for …
Run Code Online (Sandbox Code Playgroud)

r batch-processing

6
推荐指数
1
解决办法
623
查看次数

标签 统计

batch-processing ×1

r ×1