TensorFlow Federated:如何调整联合数据集中的非独立同分布性?

Ale*_*ora 4 python tensorflow tensorflow2.0 tensorflow-federated

我正在 TensorFlow Federated (TFF) 中测试一些算法。在这方面,我想在具有不同“级别”的数据异质性(即非独立同分布性)的相同联合数据集上测试和比较它们。

因此,我想知道是否有任何方法可以以自动或半自动的方式控制和调整特定联合数据集中的非独立同分布的“级别”,例如通过 TFF API 或传统的 TF API (可能在数据集实用程序内部)。

更实际一些:例如,TFF 提供的 EMNIST 联合数据集有 3383 个客户端,每个客户端都有手写字符。然而,这些本地数据集在本地示例的数量和表示的类方面似乎相当平衡(所有类或多或少都在本地表示)。如果我想要一个联合数据集(例如,从 TFF 的 EMNIST 数据集开始),即:

  • 病态上非独立同分布,例如,客户端仅包含 N 个类别中的一个类别(始终指分类任务)。tff.simulation.datasets.build_single_label_dataset 这就是这里文档的目的吗?如果是这样,我应该如何从联合数据集中使用它,例如 TFF 已经提供的数据集?
  • 本地示例数量不平衡(例如,一个客户端有 10 个示例,另一个客户端有 100 个示例);
  • 两种可能性;

我应该如何在 TFF 框架内继续准备具有这些特征的联合数据集?

我应该手工做所有的事情吗?或者你们中的一些人对自动化这个过程有什么建议吗?

另一个问题:在 Hsu 等人的论文“Measuring the Effects of Non-Identical Data Distribution for Federated Visual Classification”中,他们利用狄利克雷分布来合成一组不同的客户,并使用浓度参数控制客户端之间的一致性。这似乎是一种难以调整的方法来生成具有不同异质性水平的数据集。任何有关如何在 TFF 框架内或仅在 TensorFlow (Python) 中(考虑 EMNIST 等简单数据集)实施此策略(或类似策略)的建议也将非常有用。

万分感谢。

Zac*_*ett 5

对于联邦学习模拟,在实验驱动程序中使用 Python 设置客户端数据集以实现所需的分布是相当合理的。在某些高层,TFF 处理建模数据位置(类型系统中的“位置”)和计算逻辑。重新混合/生成模拟数据集并不是该库的核心,尽管您已经发现了一些有用的库。通过操作tf.data.Dataset然后将客户端数据集“推送”到 TFF 计算中,直接在 python 中执行此操作似乎很简单。

标签非独立同分布

是的,tff.simulation.datasets.build_single_label_dataset就是为了这个目的。

它需要 a并基本上过滤掉与 的值tf.data.Dataset不匹配的所有示例(假设数据集产生类似的结构)。desired_labellabel_keydict

对于 EMNIST,要创建所有数据集(无论用户是谁),可以通过以下方式实现:

train_data, _ = tff.simulation.datasets.emnist.load_data()
ones = tff.simulation.datasets.build_single_label_dataset(
  train_data.create_tf_dataset_from_all_clients(),
  label_key='label', desired_label=1)
print(ones.element_spec)
>>> OrderedDict([('label', TensorSpec(shape=(), dtype=tf.int32, name=None)), ('pixels', TensorSpec(shape=(28, 28), dtype=tf.float32, name=None))])
print(next(iter(ones))['label'])
>>> tf.Tensor(1, shape=(), dtype=int32)
Run Code Online (Sandbox Code Playgroud)

数据不平衡

tf.data.Dataset.repeat使用和的组合tf.data.Dataset.take可用于创建数据不平衡。

train_data, _ = tff.simulation.datasets.emnist.load_data()
datasets = [train_data.create_tf_dataset_for_client(id) for id in train_data.client_ids[:2]]
print([tf.data.experimental.cardinality(ds).numpy() for ds in datasets])
>>> [93, 109]
datasets[0] = datasets[0].repeat(5)
datasets[1] = datasets[1].take(5)
print([tf.data.experimental.cardinality(ds).numpy() for ds in datasets])
>>> [465, 5]
Run Code Online (Sandbox Code Playgroud)