相关疑难解决方法(0)

我试图根据它的坐标从PDF文档中提取文本,所以我在Adobe PDF参考中遇到了两个概念(第5.3章):

现在我对Td&Tm定位运算符感兴趣,而使用Td你有tx和ty,相对于当前行的开始,这在PDF文档中有明确规定: tx ty Td,我已经使用这种方法通过tx提取文本和ty坐标.问题是我不知道如何根据其位置从PDF中提取文本,同时仅提供tx和ty.

a b c d e f Tm

这是'Tm用法'.af值代表什么？这将是我对Tm的输入:

BT
/F1 8.88 Tf
0 0 0 rg
0.9998 0 0 1 401.52 448.08 Tm
[<0014>-11<0015>-11<0013>-11<000F>-19<0014>-11<0019>] TJ
ET

为什么每组四人都有一个领先的00？这是十六进制？我应该将它从十六进制转换为int和相应的字符吗？

这将是我对Td的输入:

BT 43.20 421.90 Td 0 Tw /C001 10.00 Tf 0.00 Tw <BlablablaTextInHexThatICanProcess>Tj ET

这更加清晰,坐标更清晰.如何根据简单的X和Y坐标从Tm定位的PDF文本对象中提取文本？我正在使用c ++和PoDoFo库

5
推荐指数

1
解决办法

3625
查看次数

c++ ×1

pdf ×1