Rob*_*ves 63 python machine-learning neural-network tensorflow
tensorflow是否有类似于scikit learn的用于处理分类数据的热门编码器?使用tf.string的占位符会表现为分类数据吗?
我意识到我可以在将数据发送到tensorflow之前手动预处理数据,但内置数据非常方便.
dga*_*dga 64
从TensorFlow 0.8开始,现在有一个原生的单热操作,tf.one_hot
它可以将一组稀疏标签转换为密集的单热表示.除此之外tf.nn.sparse_softmax_cross_entropy_with_logits
,在某些情况下,您可以直接在稀疏标签上计算交叉熵,而不是将它们转换为单热.
以前的答案,如果你想以旧的方式做到这一点: @萨尔瓦多的答案是正确的 - 那里(以前)没有本地操作.但是,您可以使用稀疏到密集的运算符在tensorflow中本地执行此操作,而不是在numpy中执行此操作:
num_labels = 10
# label_batch is a tensor of numeric labels to process
# 0 <= label < num_labels
sparse_labels = tf.reshape(label_batch, [-1, 1])
derived_size = tf.shape(label_batch)[0]
indices = tf.reshape(tf.range(0, derived_size, 1), [-1, 1])
concated = tf.concat(1, [indices, sparse_labels])
outshape = tf.pack([derived_size, num_labels])
labels = tf.sparse_to_dense(concated, outshape, 1.0, 0.0)
Run Code Online (Sandbox Code Playgroud)
输出标签是batch_size x num_labels的单热矩阵.
另请注意,截至2016-02-12(我假设最终将成为0.7版本的一部分),TensorFlow还具有tf.nn.sparse_softmax_cross_entropy_with_logits
op,在某些情况下可以让您进行培训而无需转换为单热编码.
编辑添加:最后,您可能需要明确设置标签的形状.形状推断无法识别num_labels组件的大小.如果您不需要使用derived_size的动态批量大小,则可以简化此操作.
编辑2016-02-12更改以下评论的outshape分配.
Sal*_*ali 46
tf.one_hot()
有TF,易于使用.
让我们假设你有4个可能的类别(猫,狗,鸟,人)和2个实例(猫,人).所以你depth=4
和你的indices=[0, 3]
import tensorflow as tf
res = tf.one_hot(indices=[0, 3], depth=4)
with tf.Session() as sess:
print sess.run(res)
Run Code Online (Sandbox Code Playgroud)
请记住,如果您提供index = -1,您将在单热矢量中获得全零.
旧的答案,当这个功能不可用时.
看完python文档后,我还没有找到类似的东西.有一件事加强了我对它不存在的信念,就是在他们自己的例子中他们one_hot
手动编写.
def dense_to_one_hot(labels_dense, num_classes=10):
"""Convert class labels from scalars to one-hot vectors."""
num_labels = labels_dense.shape[0]
index_offset = numpy.arange(num_labels) * num_classes
labels_one_hot = numpy.zeros((num_labels, num_classes))
labels_one_hot.flat[index_offset + labels_dense.ravel()] = 1
return labels_one_hot
Run Code Online (Sandbox Code Playgroud)
您也可以在scikitlearn中执行此操作.
Pra*_*wal 18
numpy
可以!
import numpy as np
np.eye(n_labels)[target_vector]
Run Code Online (Sandbox Code Playgroud)
一种简单而简单的方法,可以对任何整数或整数列表进行单热编码:
a = 5
b = [1, 2, 3]
# one hot an integer
one_hot_a = tf.nn.embedding_lookup(np.identity(10), a)
# one hot a list of integers
one_hot_b = tf.nn.embedding_lookup(np.identity(max(b)+1), b)
Run Code Online (Sandbox Code Playgroud)
小智 6
TensorFlow的最新版本(nightlies甚至可能是0.7.1)都有一个名为tf.one_hot的操作,可以满足您的需要.看看这个!
另一方面,如果您有一个密集矩阵,并且想要查找并聚合其中的值,则需要使用embedding_lookup函数.
归档时间: |
|
查看次数: |
67569 次 |
最近记录: |