如何查看python-docx包生成的XML

Question

如何查看python-docx包生成的XML

出于单元测试的目的，我想检查为 Word 段落生成的 XML 是否符合我在解析 HTML 段落时的预期。

如何提取 XML 本身而不是写入文件、解压缩文件并重新读取它包含的 word/document.xml 文件？

例如

from docx import Document
import bs4

def add_parsed_html_to_paragraph(p, s):
    soup = bs4.BeautifulSoup(s)
    para = soup.find('p')
    for e in para.children:
        if type(e) == bs4.element.NavigableString:
            r = p.add_run(str(e))
        else:
            r = p.add_run(e.text)
        if e.name == 'sub':
            r.font.subscript = True
        elif e.name == 'sup':
            r.font.superscript = True


title = 'A formula: H<sub>2</sub>O.'

document = Document()
p = document.add_paragraph()
add_parsed_html_to_paragraph(p, title)

# ... Now I want to check p or document for the correct XML

Run Code Online (Sandbox Code Playgroud)

Answer 1

sca*_*nny 5

每个所谓的oxml元素对象 inpython-docx都有一个.xml用于这个用例的属性。它用于内部单元测试。

您只需要访问用于 XML 元素的内部变量，通常可以通过单击[source]文档中该对象旁边的链接来访问该变量，例如：https : //python-docx.readthedocs.io/en/latest/ api/text.html#paragraph-objects

单击该链接，您会发现对于一个段落，底层 XML 元素在上可用._p。通常它是没有命名空间前缀的元素的标记名，尽管有时它是通用的._element. 如果您需要猜测，后一个是一个很好的尝试。

所以使用它很简单：

>>> paragraph._p.xml
<w:p>
  <w:pPr>
    <w:jc w:val="right"/>
  </w:pPr>
  <w:r>
    <w:t>Right-aligned</w:t>
  </w:r>
</w:p>

Run Code Online (Sandbox Code Playgroud)

单元测试实用程序中有一个伴随的域特定语言 (DSL)，称为 CXML（compact XML），它允许您处理命名空间，否则这是一个很大的痛苦。它看起来像这样：

expected_xml = cxml.xml('w:p(w:pPr/w:jc{w:val=right},w:r/w:t"Right-aligned")')

Run Code Online (Sandbox Code Playgroud)

您可以在整个单元测试中看到示例，例如：https : //github.com/python-openxml/python-docx/blob/master/tests/text/test_paragraph.py#L113并在此处使用“python -docx" 标签，如果您需要帮助。

归档时间：	6 年，11 月前
查看次数：	5167 次
最近记录：	6 年，11 月前