pyPdf如何理解文档边界？

Question

pyPdf如何理解文档边界？

在这里，我找到了用于拆分pdf页面的代码。

#!/usr/bin/env python
import copy, sys
from pyPdf import PdfFileWriter, PdfFileReader
input = PdfFileReader(sys.stdin)
output = PdfFileWriter()
for p in [input.getPage(i) for i in range(0,input.getNumPages())]:
    q = copy.copy(p)
    (w, h) = p.mediaBox.upperRight
    p.mediaBox.upperRight = (w/2, h)
    q.mediaBox.upperLeft = (w/2, h)
    output.addPage(p)
    output.addPage(q)
output.write(sys.stdout)

Run Code Online (Sandbox Code Playgroud)

如果一个页面包含四个其他页面，例如：

+-------+-------+
|   1   |   2   |
|-------+-------|
|   3   |   4   |
+-------+-------+

Run Code Online (Sandbox Code Playgroud)

然后，代码会将其拆分为两页（按此顺序），其中包含另外两页：

+-------+-------+
|   3   |   4   |
+-------+-------+

+-------+-------+
|   1   |   2   |
+-------+-------+

Run Code Online (Sandbox Code Playgroud)

您可以例如在以下文档上进行测试。如果我正确理解upperRight，upperLeft（和其他）在代码提及的变量，那么这是通过pyPdf所看到的文档表示：

UL(0,10)        UR(10,10)
+-------+-------+
|   1   |   2   |
|-------+-------|
|   3   |   4   |
+-------+-------+
LL(0,0)         LR(10,0)

UL(x,y) = UpperLeft
UR(x,y) = UpperRight
LL(x,y) = LowerLeft
LR(x,y) = LowerRight

Run Code Online (Sandbox Code Playgroud)

根据提到的代码：

(w, h) = p.mediaBox.upperRight
p.mediaBox.upperRight = (w/2, h)
q.mediaBox.upperLeft = (w/2, h)

Run Code Online (Sandbox Code Playgroud)

我期待着这个输出：

p:
+-------+
|   1   |
|-------+
|   3   |
+-------+

q:
+-------+
|   2   |
|-------+
|   4   |
+-------+

Run Code Online (Sandbox Code Playgroud)

我在这里想念的是什么？

Answer 1

rhe*_*ens 5

在PDF中，有两种获取横向页面的方法：

定义宽度>高度的页面。
定义纵向页面（宽度<高度）和旋转角度（90度，270度等）。

您的样本PDF使用第二种方式：所有页面均为595x842，旋转270度。不考虑旋转会导致垂直方向解释为水平方向，反之亦然。

归档时间：	10 年，2 月前
查看次数：	532 次
最近记录：	10 年，2 月前