什么时候应该使用 tf.train.BytesList、tf.train.FloatList 和 tf.train.Int64List 来存储要存储在 tf.train.Feature 中的数据？

Question

什么时候应该使用 tf.train.BytesList、tf.train.FloatList 和 tf.train.Int64List 来存储要存储在 tf.train.Feature 中的数据？

mic*_*rer 5 python dataformat tensorflow

TensorFlow 提供 3 种不同格式的数据存储在tf.train.Feature. 这些是：

tf.train.BytesList
tf.train.FloatList
tf.train.Int64List

Run Code Online (Sandbox Code Playgroud)

我经常在tf.train.Int64List/tf.train.FloatList和tf.train.BytesList.

我在网上看到一些例子，它们将整数/浮点数转换为字节，然后将它们存储在tf.train.BytesList. 这比使用其他格式之一更可取吗？如果是这样，当您可以将它们转换为字节并使用时，为什么 TensorFlow 甚至提供tf.train.Int64List和tf.train.FloatList作为可选格式tf.train.BytesList？

谢谢你。

Answer 1

Sha*_*rky 5

因为字节列表将需要更多内存。它旨在存储字符串数据，或者例如转换为单字节字符串的 numpy 数组。考虑示例：

def int64_feature(value):
    if type(value) != list:
        value = [value]
    return tf.train.Feature(int64_list=tf.train.Int64List(value=value))

def float_feature(value):
    if type(value) != list:
        value = [value]
    return tf.train.Feature(float_list=tf.train.FloatList(value=value))

def bytes_feature(value):
    return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))

writer = tf.python_io.TFRecordWriter('file.tfrecords')
bytes = np.array(1.1).tostring() 
int = 1
float = 1.1
example = tf.train.Example(features=tf.train.Features(feature={'1': float_feature(float)}))
writer.write(example.SerializeToString())
writer.close()

for str_rec in tf.python_io.tf_record_iterator('file.tfrecords'):
    example = tf.train.Example()
    example.ParseFromString(str_rec)
    str = (example.features.feature['1'].float_list.value[0])
    print(getsizeof(str))

Run Code Online (Sandbox Code Playgroud)

对于 dtype float，它将输出 24 个字节，即最小值。但是，您不能传递int给tf.train.FloatList. int在这种情况下，dtype 将占用 28 个字节，而未解码的字节数为 41（在应用之前np.fromstring），甚至更多。

归档时间：	6 年，10 月前
查看次数：	2471 次
最近记录：	4 年，10 月前