目标:我需要从.ppt文件中提取表格中的文本(列名称为姓名,地址,联系电话,电子邮件等).为此,我采用了这种方法:
我将.ppt文件转换为pdf,然后使用PDFminer从pdf中提取数据.从pdf中提取的文本不会被任何分隔符分隔.因此,很难区分表中的名称和其他字段.
我正在研究的可能的解决方案:
我陷入了将文件格式从.ppt转换为.pptx的第一步.我找不到任何解决方案将.ppt文件格式转换为python中的.pptx formt.
python powerpoint python-2.7
powerpoint ×1
python ×1
python-2.7 ×1