对于统计StackExchange站点,这可能是一个更好的问题(例如,请参阅我关于生成合成数据的最佳实践的问题).
但是,如果您对作为操作和处理数据的基础结构的数据属性不太感兴趣,那么您可以忽略统计信息站点.特别是,如果您不专注于数据的统计方面,只想要"大数据",那么我们可以专注于如何生成大量数据.
我可以提供几个答案:
如果您只对随机数字数据感兴趣,请从您最喜欢的Mersenne Twister实现中生成一个大流.还有/ dev/random(有关更多信息,请参阅此Wikipedia条目).我更喜欢一个已知的随机数生成器,因为结果可以被其他人恶心再现.
对于结构化数据,您可以查看将随机数映射到索引并创建一个将索引映射到字符串,数字等的表,例如在生成名称,地址等数据库时可能遇到的情况.如果您有一个足够大的表或一个足够丰富的映射目标,你可以降低碰撞的风险(例如相同的名称),虽然你可能想要发生一些碰撞,因为这些也会在现实中发生.
请记住,使用任何生成方法,您无需在开始工作之前存储整个数据集.只要您记录状态(例如RNG),您就可以从中断的地方继续.
对于文本数据,您可以查看简单的随机字符串生成器.您可以为不同长度或不同特征的字符串的概率创建自己的估计值.对于句子,段落,文档等也可以这样做 - 只需确定要模拟的属性,创建"空白"对象,并用文本填充它.
| 归档时间: |
|
| 查看次数: |
1252 次 |
| 最近记录: |