小编AHK*_*AHK的帖子

如何使用python从文件夹中的pdf中提取文本并将其保存在数据框中？

我有很多文件夹，每个文件夹都有几个 pdf 文件（也有其他文件类型，如 .xlsx 或 .doc）。我的目标是提取每个文件夹的pdf文本并创建一个数据框，其中每条记录都是“文件夹名称”，每列以字符串形式表示该文件夹中每个pdf文件的文本内容。

我设法从一个带有包的 pdf 文件中提取文本tika（代码如下）。但无法进行循环来迭代文件夹或其他文件夹中的其他 pdf，从而构建结构化数据框。

# import parser object from tike 
from tika import parser   
  
# opening pdf file 
parsed_pdf = parser.from_file("ducument_1.pdf") 
  
# saving content of pdf 
# you can also bring text only, by parsed_pdf['text']  
# parsed_pdf['content'] returns string  
data = parsed_pdf['content']  
  
# Printing of content  
print(data) 
  
# <class 'str'> 
print(type(data))

Run Code Online (Sandbox Code Playgroud)

所需的输出应如下所示：