在Python中将ppt文件转换为pptx

Question

有没有办法将.ppt文件转换为.pptx文件.

目标:我需要从.ppt文件中提取表格中的文本(列名称为姓名,地址,联系电话,电子邮件等).为此,我采用了这种方法:

我将.ppt文件转换为pdf,然后使用PDFminer从pdf中提取数据.从pdf中提取的文本不会被任何分隔符分隔.因此,很难区分表中的名称和其他字段.

我正在研究的可能的解决方案:

我陷入了将文件格式从.ppt转换为.pptx的第一步.我找不到任何解决方案将.ppt文件格式转换为python中的.pptx formt.

Answer 1

对于 MacOS Homebrew 用户：安装 Apache Tika ( brew install tika)

命令行界面的工作方式如下：

tika --text something.ppt > something.txt

并在 python 脚本中使用它：

import os
os.system("tika --text temp.ppt > temp.txt")

你将能够做到，这是我迄今为止唯一的解决方案。