将 PDFBox 坐标转换为 PDPage::convertToImage 的像素坐标

rou*_*dar 1 java pdf coordinates pdfbox

我正在使用 PDFBoxPDPage::convertToImage在 Java 中显示 PDF 页面。我正在尝试基于COSObjects页面(即 AcroForm 字段)在 PDF 页面的图像上创建可点击区域。问题是 PDF 似乎使用了完全不同的坐标系:

System.out.println(field.getDictionary().getItem(COSName.RECT));
Run Code Online (Sandbox Code Playgroud)

产量

COSArray{[COSFloat{149.04}, COSFloat{678.24}, COSInt{252}, COSFloat{697.68}]}
Run Code Online (Sandbox Code Playgroud)

如果我要估计图像上字段矩形的实际尺寸,它将是 40,40,50,10 (x,y,width,height)。两者之间没有明显的相关性,我似乎无法通过 Google 找到任何相关信息。

如何确定 PDPage 的 COSObjects 的像素位置?

fab*_*ian 5

的PDF坐标系不是从图像中使用的坐标系不同。唯一的区别是:

  • y 轴指向,而不是下
  • 规模很可能不同。

您可以使用以下公式从 pdf 坐标转换为图像坐标:

x_image = x_pdf * width_image / width_page
y_image = (height_pdf - y_pdf) * height_image / height_pdf
Run Code Online (Sandbox Code Playgroud)

要获取页面大小,只需使用包含注释的页面的媒体框大小:

PDRectangle pageBounds = page.getMediaBox();
Run Code Online (Sandbox Code Playgroud)

您可能错过了 pdf 中的数组与图像坐标估计值之间的相关性,因为 pdf 中的矩形表示为 array [x_left, y_bottom, x_right, y_top]

幸运的是,PDFBox 提供了在比 cos 结构更高的层次上操作的类。使用它对您有利,并使用例如PDRectangle您从PDAnnotation使用getRectangle()中获得而不是访问COSArray您从字段字典中提取的内容。