python将microsoft office docs转换为linux上的纯文本

Tim*_*Tim 11 python linux ms-office

有关使用python将.doc,.ppt和.xls转换为纯文本的方法的任何建议吗?真的任何转换方法都会有用.我已经看过使用Open Office但是,我想要一个不需要安装Open Office的解决方案.

Chr*_*heD 11

我会去命令行解决方案(然后使用Python子进程模块从Python运行工具).

可以在这里找到msword(catdoc),excel(xls2csv)和ppt(catppt)的转换器(源代码形式):http://vitus.wagner.pp.ru/software/catdoc/.

无法真正评论catppt的有用性,但catdoc和xls2csv工作得很好!

但一定要首先搜索你的发行版存储库...例如在ubuntu上,catdoc只是一个快速的get-get away.


emk*_*emk 5

将Microsoft Office文档转换为HTML或其他格式的常用工具是mswordview,后者已重命名为vwWare.

如果您正在寻找命令行工具,他们实际上建议您使用AbiWord执行转换:

AbiWord --to=txt
Run Code Online (Sandbox Code Playgroud)

如果您正在寻找一个库,请从wvWare概述页面开始.他们还维护一个读取MS Office文档的库和工具列表.