我试图根据它的坐标从PDF文档中提取文本,所以我在Adobe PDF参考中遇到了两个概念(第5.3章):
现在我对Td&Tm定位运算符感兴趣,而使用Td你有tx和ty,相对于当前行的开始,这在PDF文档中有明确规定:
tx ty Td,我已经使用这种方法通过tx提取文本和ty坐标.问题是我不知道如何根据其位置从PDF中提取文本,同时仅提供tx和ty.
a b c d e f Tm
Run Code Online (Sandbox Code Playgroud)
这是'Tm用法'.af值代表什么?这将是我对Tm的输入:
BT
/F1 8.88 Tf
0 0 0 rg
0.9998 0 0 1 401.52 448.08 Tm
[<0014>-11<0015>-11<0013>-11<000F>-19<0014>-11<0019>] TJ
ET
Run Code Online (Sandbox Code Playgroud)
为什么每组四人都有一个领先的00?这是十六进制?我应该将它从十六进制转换为int和相应的字符吗?
这将是我对Td的输入:
BT 43.20 421.90 Td 0 Tw /C001 10.00 Tf 0.00 Tw <BlablablaTextInHexThatICanProcess>Tj ET
Run Code Online (Sandbox Code Playgroud)
这更加清晰,坐标更清晰.如何根据简单的X和Y坐标从Tm定位的PDF文本对象中提取文本?我正在使用c ++和PoDoFo库