将 .doc/.docx 转换为文本并保留表格

Kar*_*ngh 3 python text file apache-tika

我想将 doc/docx 文件转换为文本文件。我的要求是表格应该保持原样。

我尝试过Python tika。它将行转换为列

例如输入 doc/docx 文件中的表

在此输入图像描述

上面的表格转换为如下文本

LANGUAGE
UNDERSTAND
LEARN

HINDI
YES
NO

MARATHI
YES
NO

ENGLISH
YES
NO
Run Code Online (Sandbox Code Playgroud)

所需的输出类似于(保留表格格式)

 LANGUAGE    UNDERSTAND      LEARN  
 HINDI   YES     NO
 MARATHI     YES     NO
 ENGLISH     YES     NO
Run Code Online (Sandbox Code Playgroud)

如果可能的话请告诉我。

Rol*_*ony 6

正如@ilmiacs 建议的那样,pandoc可以为您做到这一点。
使用python需要安装pypandoc.
测试文档:

在此输入图像描述

import pypandoc
print(pypandoc.convert_file("Untitled 1.docx", "plain+simple_tables", format="docx", extra_args=(), encoding='utf-8', outputfile=None))
Run Code Online (Sandbox Code Playgroud)

给你:

在此输入图像描述

显然,您还可以选择使用subprocess将其敲入命令行。