yis*_*sus 2 html ms-word converter python-3.x mammoth
我已经用猛犸象试过了:
import mammoth
result = mammoth.convert_to_html("MyDocument.docx")
print (result.value)
Run Code Online (Sandbox Code Playgroud)
我没有得到 HTML,但是这个奇怪的代码:
kbW7yqZoo4h9pYM6yBxX1QFx2pCoPYflXfieIPbtqpT913Vk7OzcZdEk3eO7TbWjvZNTGilsfmRrPwDvB[...]
Run Code Online (Sandbox Code Playgroud)
我也尝试过使用 docx2html,但我无法安装它。当我运行时,pip install docx2html我收到此错误:
SyntaxError: Missing parentheses in call to 'print'
Run Code Online (Sandbox Code Playgroud)
Mammoth 旨在转换 .docx 文档,例如由 Microsoft Word 创建的文档,并将它们转换为 HTML。Mammoth 旨在通过使用文档中的语义信息并忽略其他细节来生成简单干净的 HTML。例如,猛犸象将具有样式标题 1 的任何段落转换为 h1 元素,而不是尝试完全复制标题的样式(字体、文本大小、颜色等)。
.docx 使用的结构与 HTML 的结构之间存在很大的不匹配,这意味着对于更复杂的文档,转换不太可能是完美的。如果您只使用样式从语义上标记您的文档,猛犸象效果最好。
目前支持以下功能:
标题。
列表。
从您自己的 docx 样式到 HTML 的可自定义映射。例如,您可以通过提供适当的样式映射将 WarningHeading 转换为 h1.warning。
表。表格本身的格式(例如边框)当前被忽略,但文本格式的处理与文档其余部分的格式相同。
脚注和尾注。
图片。
粗体、斜体、下划线、删除线、上标和下标。
链接。
换行。
文本框。文本框的内容被视为一个单独的段落,出现在包含文本框的段落之后。
注释。
安装
pip install mammoth
Run Code Online (Sandbox Code Playgroud)
基本转换
要将现有的 .docx 文件转换为 HTML,请将类似文件的对象传递给 mammoth.convert_to_html。该文件应以二进制模式打开。例如:
import mammoth
with open("document.docx", "rb") as docx_file:
result = mammoth.convert_to_html(docx_file)
html = result.value # The generated HTML
messages = result.messages # Any messages, such as warnings during conversion
Run Code Online (Sandbox Code Playgroud)
您还可以使用 mammoth.extract_raw_text 提取文档的原始文本。这将忽略文档中的所有格式。每个段落后跟两个换行符。
with open("document.docx", "rb") as docx_file:
result = mammoth.extract_raw_text(docx_file)
text = result.value # The raw text
messages = result.messages # Any messages
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
5127 次 |
| 最近记录: |