使用Python Faker程序包的最大不同假数据限制

Question

我已使用Python Faker生成伪造数据。但是我需要知道使用fakerr（例如：fake.name（））可以生成最大数量的不同的假数据（例如：假名）。

我已经产生了100,000个假名，而我得到的独特名少于76,000个。我需要知道最大限制，以便知道使用此软件包生成数据可以扩展的数量。

我需要生成巨大的数据集。我还想知道Php伪造者，perl伪造者在不同的环境中都一样吗？

产生巨大数据集的其他软件包将受到高度赞赏。

Answer 1

我遇到了同样的问题并进行了更多研究。

在en_US提供程序中，大约有 1000 个姓氏和 750 个名字，大约有 750000 个独特的组合。如果您随机选择名字和姓氏，则有可能会得到重复的名字。但实际上，现实世界就是这样运作的，那里有很多约翰·史密斯和罗伯特·道尔斯。

个人资料中有 7203 个名字和 473 个姓氏en，可以提供一些帮助。Faker 选择名字和姓氏的组合，这意味着大约有 7203 * 473 = 3407019。

但仍然有可能您会得到重复的内容。

我通过在名称中添加数字来解决这个问题。

我需要生成巨大的数据集。

请记住，实际上，任何庞大的名称数据集都会有重复项。我处理大型数据集（> 100 万个姓名），我们看到大量重复的名字和姓氏。

如果您阅读 faker 包代码，您可能会弄清楚如何修改它，以便获得所有 3M 不同的名称。