相关疑难解决方法(0)

根据位置c ++从PDF文档中提取文本

我试图根据它的坐标从PDF文档中提取文本,所以我在Adobe PDF参考中遇到了两个概念(第5.3章):

  1. 文本定位运算符
  2. 文本显示运算符

现在我对Td&Tm定位运算符感兴趣,而使用Td你有txty,相对于当前行的开始,这在PDF文档中有明确规定: tx ty Td,我已经使用这种方法通过tx提取文本和ty坐标.问题是我不知道如何根据其位置从PDF中提取文本,同时仅提供txty.

a b c d e f Tm
Run Code Online (Sandbox Code Playgroud)

这是'Tm用法'.af值代表什么?这将是我对Tm的输入:

BT
/F1 8.88 Tf
0 0 0 rg
0.9998 0 0 1 401.52 448.08 Tm
[<0014>-11<0015>-11<0013>-11<000F>-19<0014>-11<0019>] TJ
ET
Run Code Online (Sandbox Code Playgroud)

为什么每组四人都有一个领先的00?这是十六进制?我应该将它从十六进制转换为int和相应的字符吗?

这将是我对Td的输入:

BT 43.20 421.90 Td 0 Tw /C001 10.00 Tf 0.00 Tw <BlablablaTextInHexThatICanProcess>Tj ET
Run Code Online (Sandbox Code Playgroud)

这更加清晰,坐标更清晰.如何根据简单的X和Y坐标从Tm定位的PDF文本对象中提取文本?我正在使用c ++和PoDoFo库

c++ pdf podofo

5
推荐指数
1
解决办法
3625
查看次数

标签 统计

c++ ×1

pdf ×1

podofo ×1