使用Python Faker程序包的最大不同假数据限制

Ner*_*eph 5 python faker

我已使用Python Faker生成伪造数据。但是我需要知道使用fakerr(例如:fake.name())可以生成最大数量的不同的假数据(例如:假名)。

我已经产生了100,000个假名,而我得到的独特名少于76,000个。我需要知道最大限制,以便知道使用此软件包生成数据可以扩展的数量。

我需要生成巨大的数据集。我还想知道Php伪造者,perl伪造者在不同的环境中都一样吗?

产生巨大数据集的其他软件包将受到高度赞赏。

Mik*_*ike 2

我遇到了同样的问题并进行了更多研究。

en_US提供程序中,大约有 1000 个姓氏和 750 个名字,大约有 750000 个独特的组合。如果您随机选择名字和姓氏,则有可能会得到重复的名字。但实际上,现实世界就是这样运作的,那里有很多约翰·史密斯和罗伯特·道尔斯。

个人资料中有 7203 个名字和 473 个姓氏en,可以提供一些帮助。Faker 选择名字和姓氏的组合,这意味着大约有 7203 * 473 = 3407019。

但仍然有可能您会得到重复的内容。

我通过在名称中添加数字来解决这个问题。

我需要生成巨大的数据集。

请记住,实际上,任何庞大的名称数据集都会有重复项。我处理大型数据集(> 100 万个姓名),我们看到大量重复的名字和姓氏。

如果您阅读 faker 包代码,您可能会弄清楚如何修改它,以便获得所有 3M 不同的名称。