我想用PDFMiner从PDF文件中提取所有文本框和文本框坐标.
许多其他Stack Overflow帖子解决了如何以有序方式提取所有文本,但是如何进行获取文本和文本位置的中间步骤?
给定一个PDF文件,输出应该类似于:
489, 41, "Signature"
500, 52, "b"
630, 202, "a_g_i_r"
Run Code Online (Sandbox Code Playgroud) 我试图使用PDFMiner从外语PDF文件中提取文本,但是被ToUnicode语句挫败了.即使在普通的PDF查看器下,该文件的行为也很奇怪.
例如,以下是文件中某些文本的屏幕截图:

但是,如果我选择并复制文本,它看起来像这样:
िनरकर
您可以看到多个字符已更改,尤其是倒数第二个字符.
毫不奇怪,PDFMiner提取不正确的文本.但每个PDF查看器都能正确显示这些数据.我怀疑问题是ToUnicode地图,或者是带有连接字符的东西.所需的字母应该是0x915,0x94D,0x937的序列.PDFMiner仅报告0x915,它描述了不同的字符.
我需要做些什么才能让PDFMiner正确提取文本,即在图像中而不是复制粘贴文本?
我正在尝试更有效地使用分类变量。
假设我有一个分类变量phone,它具有以下值:
----------------------
phone | Freq.
----------+-----------
Landline | 223
Mobile | 49,297
Both | 1,308
Run Code Online (Sandbox Code Playgroud)
我想运行这样的命令:
sum x if phone == Mobile
Run Code Online (Sandbox Code Playgroud)
为此,我需要运行以下三个命令:
// figure out what the label is called
. describe phone, full
storage display value
variable name type format label
-------------------------------------------
phone byte %15.0g phone_label
// list the label so i can figure out what number goes with what category
. label list phone_label
phonel:
1 Landline
2 Mobile
3 Both
// run the …Run Code Online (Sandbox Code Playgroud)