Tensorflow One Hot Encoder?

Rob*_*ves 63 python machine-learning neural-network tensorflow

tensorflow是否有类似于scikit learn的用于处理分类数据的热门编码器?使用tf.string的占位符会表现为分类数据吗?

我意识到我可以在将数据发送到tensorflow之前手动预处理数据,但内置数据非常方便.

dga*_*dga 64

从TensorFlow 0.8开始,现在有一个原生的单热操作,tf.one_hot它可以将一组稀疏标签转换为密集的单热表示.除此之外tf.nn.sparse_softmax_cross_entropy_with_logits,在某些情况下,您可以直接在稀疏标签上计算交叉熵,而不是将它们转换为单热.

以前的答案,如果你想以旧的方式做到这一点: @萨尔瓦多的答案是正确的 - 那里(以前)没有本地操作.但是,您可以使用稀疏到密集的运算符在tensorflow中本地执行此操作,而不是在numpy中执行此操作:

num_labels = 10

# label_batch is a tensor of numeric labels to process
# 0 <= label < num_labels

sparse_labels = tf.reshape(label_batch, [-1, 1])
derived_size = tf.shape(label_batch)[0]
indices = tf.reshape(tf.range(0, derived_size, 1), [-1, 1])
concated = tf.concat(1, [indices, sparse_labels])
outshape = tf.pack([derived_size, num_labels])
labels = tf.sparse_to_dense(concated, outshape, 1.0, 0.0)
Run Code Online (Sandbox Code Playgroud)

输出标签是batch_size x num_labels的单热矩阵.

另请注意,截至2016-02-12(我假设最终将成为0.7版本的一部分),TensorFlow还具有tf.nn.sparse_softmax_cross_entropy_with_logitsop,在某些情况下可以让您进行培训而无需转换为单热编码.

编辑添加:最后,您可能需要明确设置标签的形状.形状推断无法识别num_labels组件的大小.如果您不需要使用derived_size的动态批量大小,则可以简化此操作.

编辑2016-02-12更改以下评论的outshape分配.

  • 如果将其与TensorFlow 1.0一起使用,则需要进行一些更改.`tf.concat([indices,sparse_labels],1)`和`outshape = tf.stack([derived_size,num_labels])` (2认同)

Sal*_*ali 46

tf.one_hot() 有TF,易于使用.

让我们假设你有4个可能的类别(猫,狗,鸟,人)和2个实例(猫,人).所以你depth=4和你的indices=[0, 3]

import tensorflow as tf
res = tf.one_hot(indices=[0, 3], depth=4)
with tf.Session() as sess:
    print sess.run(res)
Run Code Online (Sandbox Code Playgroud)

请记住,如果您提供index = -1,您将在单热矢量中获得全零.

旧的答案,当这个功能不可用时.

看完python文档后,我还没有找到类似的东西.有一件事加强了我对它不存在的信念,就是在他们自己的例子中他们one_hot手动编写.

def dense_to_one_hot(labels_dense, num_classes=10):
  """Convert class labels from scalars to one-hot vectors."""
  num_labels = labels_dense.shape[0]
  index_offset = numpy.arange(num_labels) * num_classes
  labels_one_hot = numpy.zeros((num_labels, num_classes))
  labels_one_hot.flat[index_offset + labels_dense.ravel()] = 1
  return labels_one_hot
Run Code Online (Sandbox Code Playgroud)

您也可以在scikitlearn中执行此操作.


Pra*_*wal 18

numpy 可以!

import numpy as np
np.eye(n_labels)[target_vector]
Run Code Online (Sandbox Code Playgroud)


Raj*_*tra 8

一种简单而简单的方法,可以对任何整数或整数列表进行单热编码:

a = 5 
b = [1, 2, 3]
# one hot an integer
one_hot_a = tf.nn.embedding_lookup(np.identity(10), a)
# one hot a list of integers
one_hot_b = tf.nn.embedding_lookup(np.identity(max(b)+1), b)
Run Code Online (Sandbox Code Playgroud)


小智 6

TensorFlow的最新版本(nightlies甚至可能是0.7.1)都有一个名为tf.one_hot的操作,可以满足您的需要.看看这个!

另一方面,如果您有一个密集矩阵,并且想要查找并聚合其中的值,则需要使用embedding_lookup函数.