Mad*_*mik 12 python tensorflow
我正在使用 tensorflow 中的 Transformer 代码 - https://www.tensorflow.org/beta/tutorials/text/transformer
在这段代码中,使用的数据集是这样加载的 -
examples, metadata = tfds.load('ted_hrlr_translate/pt_to_en', with_info=True,
as_supervised=True)
train_examples, val_examples = examples['train'], examples['validation']
Run Code Online (Sandbox Code Playgroud)
当我使用以下命令检查 train_examples 的类型时:
type(train_examples)
Run Code Online (Sandbox Code Playgroud)
我得到以下作为输出 -
tensorflow.python.data.ops.dataset_ops._OptionsDataset
Run Code Online (Sandbox Code Playgroud)
现在我只想更改数据集的一些条目,即句子,但我无法理解,因为我不理解类型。
我可以使用以下方法对其进行迭代:
for data in train_examples:
print(data,type(data))
Run Code Online (Sandbox Code Playgroud)
数据类型是 -
<class 'tuple'>
Run Code Online (Sandbox Code Playgroud)
最后我想要的是用我自己的数据替换这些元组中的一些。有人可以告诉我如何做到这一点或给我一些关于这种类型的详细信息
tensorflow.python.data.ops.dataset_ops._OptionsDataset。
Cax*_*ton 11
tensorflow.python.data.ops.dataset_ops._OptionsDataset只是扩展基类tf.compat.v2.data.Dataset(DatasetV2) 的另一个类,它tf.data.Options与原始tf.compat.v2.data.Dataset数据集(在您的情况下是葡萄牙语-英语元组)一起保存。
(tf.data.Options当您在数据集上使用流函数时运行 tf.data.Dataset.map或tf.data.Dataset.interleave)
如何查看单个元素?
我确信有很多方法,但一种直接的方法是在基类中使用迭代器:
由于这里是通过调用方法进行迭代的
examples['train']一种类型_OptionsDatasettf.compat.v2.data.Dataset
iterator = examples['train'].__iter__()
next_element = iterator.get_next()
pt = next_element[0]
en = next_element[1]
print(pt.numpy())
print(en.numpy())
Run Code Online (Sandbox Code Playgroud)
这是输出:
b'o problema \xc3\xa9 que nunca vivi l\xc3\xa1 um \xc3\xbanico dia .'
b"except , i 've never lived one day of my life there ."
Run Code Online (Sandbox Code Playgroud)
用您自己的数据替换:
由于您没有提到要用什么来替换原始数据集,我假设您有一个包含自己特定翻译的 CSV/TSV 文件。然后tf.compat.v2.data.Dataset通过调用 CSV API 将您的 CSV 文件读入数据集来创建一个单独的对象本身应该很有用:
tf.data.experimental.make_csv_dataset
| 归档时间: |
|
| 查看次数: |
8863 次 |
| 最近记录: |