复制 .docx 并保留图像

Viz*_*zag 6 python docx

我正在尝试将文档的元素从一个文档文件复制到另一个文档文件。文字部分很简单,图像是棘手的地方。附加图像来解释文档的结构:只有一些文本和 1 张图像。

在此输入图像描述

from docx import Document
import io
doc = Document('/Users/neha/Desktop/testing.docx')


new_doc = Document()

for elem in doc.element.body:
    new_doc.element.body.append(elem)
new_doc.save('/Users/neha/Desktop/out.docx')
Run Code Online (Sandbox Code Playgroud)

这让我了解了文档的整个结构,new_doc但图像仍然是空白的。下图:

在此输入图像描述

好处是我在正确的位置有空白图像,所以我想从前一个图像中获取字节级数据并将其插入到新文档中。这是我扩展上面代码的方法:

from docx import Document
import io
doc = Document('/Users/neha/Desktop/testing.docx')


new_doc = Document()

for elem in doc.element.body:
    new_doc.element.body.append(elem)

im = doc.inline_shapes[0]

blip = im._inline.graphic.graphicData.pic.blipFill.blip
rId = blip.embed


doc_part = doc.part
image_part = doc_part.related_parts[rId]
bytes = image_part._blob        #Here I get the byte level data for the image

im2 = new_doc.inline_shapes[0]
blip2 = im2._inline.graphic.graphicData.pic.blipFill.blip
rId2 = blip2.embed       
document_part2 = new_doc.part
document_part2.related_parts[rId2]._blob = bytes
new_doc.save('/Users/neha/Desktop/out.docx')
Run Code Online (Sandbox Code Playgroud)

但图像中仍然显示为空new_doc。从这里我应该做什么?

Viz*_*zag 5

几天前我想出了一个解决方案。然而,使用这种方式文本会丢失格式,但图像放置正确。

所以想法是,对于文档para来说,如果有文本,我将其写入文档。如果存在内联图像,我会在文档中的该位置添加一个唯一标识符(请参阅此处以了解这些标识符的工作原理以及 中的上下文)。事实证明,这些标识符在这里特别有用。然后使用这些唯一标识符创建一个“上下文”(如下所示),它基本上是一个将唯一标识符映射到其特定的映射,最后我这个上下文..parassourcedestdestdocxtpldocxtplInlineImagerender

下面是我的代码(对不必要的缩进表示歉意,我直接从文本编辑器复制它,shift+tab在这里不起作用:P)

        from docxtpl import DocxTemplate, InlineImage
        import Document
        import io
        import xml.etree.ElementTree as ET

        dest = DocxTemplate() 
        source = Document(source_path)
        context = {}
        ims = [im for im in source.inline_shapes]
        im_addresses = []
        im_streams = []
        count = 0
        for im in ims:
            blip = im._inline.graphic.graphicData.pic.blipFill.blip
            rId = blip.embed
            doc_part = source.part
            image_part = doc_part.related_parts[rId]
            byte_data = image_part._blob
            image_stream = io.BytesIO(byte_data)
            im_streams.append(image_stream)
            image_name = self.img_path+"img_"+"_"+str(count)+".jpeg"

            with open(image_name, "wb") as fh:
                fh.write(byte_data)
            fh.close()

            im_addresses.append(image_name)

            count += 1
        paras = source.paragraphs
        im_idx = 0

        for para in paras:
            p = dest.add_paragraph()
            r = p.add_run()
            if(para.text):
                r.add_text(para.text)
            root = ET.fromstring(para._p.xml)
            namespace = {'wp':"http://schemas.openxmlformats.org/drawingml/2006/wordprocessingDrawing"}

            inlines = root.findall('.//wp:inline',namespace)

            if(len(inlines) > 0):
                uid = "img_"+str(im_idx)

                r.add_text("{{ " + uid + " }}")


                context[uid] = InlineImage(dest,im_addresses[im_idx])
                im_idx += 1

        try:
            dest.render(context)
        except Exception as e:
            print(e)
        dest.save(dest_path)
Run Code Online (Sandbox Code Playgroud)

PS:如果一个段落有两个图像,则该代码将被证明不是最佳的。必须对以下内容进行一些更改:

if(len(inlines) > 0):
    uid = "img_"+str(im_idx)
    r.add_text("{{ " + uid + " }}")
    context[uid] = InlineImage(dest,im_addresses[im_idx])
    im_idx += 1
Run Code Online (Sandbox Code Playgroud)

还必须在语句for内添加一个循环if。由于我不需要像往常一样我的图像足够大,所以它们总是出现在不同的段落中。只是为任何可能需要它的人提供一个旁注..

干杯!