numpy 的一种热编码

D31*_*181 5 python numpy one-hot-encoding

我试图理解示例 python教程中输出的值。输出似乎没有按照我能理解的任何顺序排列。特定的 python 行给我带来了麻烦:

vocab_size = 13   #just to provide all variable values
m = 84 #just to provide all variable values
Y_one_hot = np.zeros((vocab_size, m))
Y_one_hot[Y.flatten(), np.arange(m)] = 1
Run Code Online (Sandbox Code Playgroud)

输入 Y.flatten() 被评估为以下 numpy-array :

  [ 8  9  7  4  9  7  8  4  8  7  8 12  4  8  9  8 12  7  8  9  7 12  7  2
  9  7  8  7  2  0  7  8 12  2  0  8  8 12  7  0  8  6 12  7  2  8  6  5
  7  2  0  6  5 10  2  0  8  5 10  1  0  8  6 10  1  3  8  6  5  1  3 11
  6  5 10  3 11  5 10  1 11 10  1  3]
Run Code Online (Sandbox Code Playgroud)

np排列是一个范围从0-83的张量

np.arange(m)
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83]
Run Code Online (Sandbox Code Playgroud)

好吧,我从新的 Y_one_hot 中无法理解的输出是,我收到了一个大小为 13 的 numpy 数组(如预期的那样),但我不明白为什么这些数组的位置位于基于 Y 的位置。例如,这里的 flatten() 输入是 13 中的第一个数组:

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0
  0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0]
Run Code Online (Sandbox Code Playgroud)

有人可以解释一下我如何从该单行的输入值到输出数组吗?看起来这些数字的位置是随机的,并且在 13 个数组的其他一些数组中,数字的数量似乎也是随机的。这是预期的行为吗?

这是一个完整的可运行示例:

import numpy as np
import sys
import re



# turn Y into one hot encoding
Y =  np.array([ 8,  9,  7,  4 , 9,  7,  8,  4,  8,  7,  8, 12,  4,  8,  9,  8, 12,  7,  8,  9,  7, 12,  7,  2,
  9,  7,  8,  7,  2,  0,  7,  8, 12,  2,  0,  8,  8, 12,  7,  0,  8,  6, 12,  7,  2,  8,  6,  5,
  7,  2,  0,  6,  5, 10,  2,  0,  8,  5, 10,  1,  0,  8,  6, 10,  1,  3,  8,  6,  5,  1,  3, 11,
  6,  5, 10,  3, 11,  5, 10,  1, 11, 10,  1,  3])
m = 84
vocab_size = 13
Y_one_hot = np.zeros((vocab_size, m))
Y_one_hot[Y.flatten(), np.arange(m)] = 1
np.set_printoptions(threshold=sys.maxsize)
print(Y_one_hot.astype(int))
Run Code Online (Sandbox Code Playgroud)

jak*_*vdp 2

该行Y_one_hot[Y.flatten(), np.arange(m)] = 1使用整数索引列表设置数组的值(记录在Integer Array Indexing

索引数组一起广播,一维数组的结果本质上是执行此操作的有效方法:

for i, j in zip(Y.flatten(), np.arange(m)):
    Y_one_hot[i, j] = 1
Run Code Online (Sandbox Code Playgroud)

换句话说, 的每一列Y_one_hot对应于 的一个条目Y.flatten(),并且在该条目给出的行中具有单个非零值。

使用较小的数组可能更容易看到:

Y_onehot = np.zeros((2, 3), dtype=int)
Y = np.array([0, 1, 0])

Y_onehot[Y.flatten(), np.arange(3)] = 1

print(Y_onehot)
# [[1 0 1]
#  [0 1 0]]
Run Code Online (Sandbox Code Playgroud)

三个条目映射到三列,每列在与该值对应的行中都有一个非零条目。