may*_*bot 5 python powerpoint python-2.7
目标:我需要从.ppt文件中提取表格中的文本(列名称为姓名,地址,联系电话,电子邮件等).为此,我采用了这种方法:
我将.ppt文件转换为pdf,然后使用PDFminer从pdf中提取数据.从pdf中提取的文本不会被任何分隔符分隔.因此,很难区分表中的名称和其他字段.
我正在研究的可能的解决方案:
我陷入了将文件格式从.ppt转换为.pptx的第一步.我找不到任何解决方案将.ppt文件格式转换为python中的.pptx formt.
小智 1
对于 MacOS Homebrew 用户:安装 Apache Tika ( brew install tika
)
命令行界面的工作方式如下:
tika --text something.ppt > something.txt
Run Code Online (Sandbox Code Playgroud)
并在 python 脚本中使用它:
import os
os.system("tika --text temp.ppt > temp.txt")
Run Code Online (Sandbox Code Playgroud)
你将能够做到,这是我迄今为止唯一的解决方案。