小编Kar*_*ngh的帖子

将 .doc/.docx 转换为文本并保留表格

我想将 doc/docx 文件转换为文本文件。我的要求是表格应该保持原样。

我尝试过Python tika。它将行转换为列

例如输入 doc/docx 文件中的表

在此输入图像描述

上面的表格转换为如下文本

LANGUAGE
UNDERSTAND
LEARN

HINDI
YES
NO

MARATHI
YES
NO

ENGLISH
YES
NO
Run Code Online (Sandbox Code Playgroud)

所需的输出类似于(保留表格格式)

 LANGUAGE    UNDERSTAND      LEARN  
 HINDI   YES     NO
 MARATHI     YES     NO
 ENGLISH     YES     NO
Run Code Online (Sandbox Code Playgroud)

如果可能的话请告诉我。

python text file apache-tika

3
推荐指数
1
解决办法
840
查看次数

标签 统计

apache-tika ×1

file ×1

python ×1

text ×1