小编pnj*_*pnj的帖子

如何从PDF文件中提取文本和文本坐标？

我想用PDFMiner从PDF文件中提取所有文本框和文本框坐标.

许多其他Stack Overflow帖子解决了如何以有序方式提取所有文本,但是如何进行获取文本和文本位置的中间步骤？

给定一个PDF文件,输出应该类似于:

   489, 41,  "Signature"
   500, 52,  "b"
   630, 202, "a_g_i_r"

Run Code Online (Sandbox Code Playgroud)

python pdf pdfminer

pnj*_*pnj

2018 11-17

21
推荐指数

3
解决办法

2万
查看次数

由于ToUnicode映射,PDF文本提取返回错误的字符

我试图使用PDFMiner从外语PDF文件中提取文本,但是被ToUnicode语句挫败了.即使在普通的PDF查看器下,该文件的行为也很奇怪.

例如,以下是文件中某些文本的屏幕截图:

正确的文字

但是,如果我选择并复制文本,它看起来像这样:

िनरकर

您可以看到多个字符已更改,尤其是倒数第二个字符.

毫不奇怪,PDFMiner提取不正确的文本.但每个PDF查看器都能正确显示这些数据.我怀疑问题是ToUnicode地图,或者是带有连接字符的东西.所需的字母应该是0x915,0x94D,0x937的序列.PDFMiner仅报告0x915,它描述了不同的字符.

我需要做些什么才能让PDFMiner正确提取文本,即在图像中而不是复制粘贴文本？

以下是相关PDF的链接.

pdf pdfminer

pnj*_*pnj

2015 02-26

3
推荐指数

1
解决办法

1255
查看次数

Stata：通过标签而不是数字来引用分类字段

我正在尝试更有效地使用分类变量。

假设我有一个分类变量phone，它具有以下值：

----------------------
    phone |      Freq.
----------+-----------  
Landline  |        223    
Mobile    |     49,297
     Both |      1,308

Run Code Online (Sandbox Code Playgroud)

我想运行这样的命令：

sum x if phone == Mobile

Run Code Online (Sandbox Code Playgroud)

为此，我需要运行以下三个命令：

// figure out what the label is called
. describe phone, full

              storage   display    value
variable name   type    format     label
-------------------------------------------
phone           byte    %15.0g     phone_label

// list the label so i can figure out what number goes with what category
. label list phone_label

phonel:
           1 Landline
           2 Mobile
           3 Both

// run the …

Run Code Online (Sandbox Code Playgroud)

stata

pnj*_*pnj

2015 05-18

2
推荐指数

1
解决办法

973
查看次数