我正在寻找一个好的免费工具的建议,用于生成样本数据以便加载到测试数据库中.通过类比,可以为任何RDBMS 生成" lorem ipsum "文本.我正在寻找的功能包括:
INSERT语句)生成,或者以适合批量导入的平面文件格式生成(通常更快).PS:我确实在StackOverflow上搜索了一个重复的问题,但我没找到.如果有的话,我会很高兴得到一个指针.
感谢大家的响应!我应该修改我的要求,即我使用Mac OS X作为我的主要开发环境,而不是Windows(虽然我确实说命令行界面是可取的,而且实际上排除了Windows).不过,特定于Windows的建议无疑会对这个问题的其他读者有用,所以,谢谢.
这是我的结论:
我想知道Java 是否存在伪数据生成器.在Perl中存在,Data::Faker并且有一个Ruby的端口faker,用于JavaScript faker.js.有人知道Java 的假数据生成器,可以提供随机名称,电话号码,邮政信箱号码等...
我想收到有关SQL服务器可用的数据生成器的建议.如果发布回复,请提供您认为重要的任何功能.
我从未使用过这样的应用程序,所以我希望接受有关该主题的教育.谢谢.
(我的目标是在每个表中填充10,000多条记录的数据库,以测试应用程序.)
是的,你看对了.我需要一些能够从正则表达式生成随机文本的东西.所以文本应该是随机的,但要与正则表达式匹配.它似乎不存在,但我可能是错的.
只是一个例子:该库将能够[ab]*c作为输入,并生成如下样本:
abc
abbbc
bac
等等
更新:我自己创造了一些东西:Xeger.查看http://code.google.com/p/xeger/.
Keras 的文档ImageDataGenerator class说——
width_shift_range: Float, 1-D array-like or int - float: 总宽度的分数,如果 < 1,或者像素,如果 >= 1。 - 1-D array-like: 来自数组的随机元素。- int:间隔的整数像素
(-width_shift_range, +width_shift_range)-width_shift_range=2可能的值为整数[-1, 0, +1],与 相同width_shift_range=[-1, 0, +1],而width_shift_range=1.0可能的值为区间 [-1.0, +1.0) 中的浮点数。
height_shift_range: Float, 1-D array-like or int - float: 总高度的分数,如果 < 1,或者像素,如果 >= 1。 - 1-D array-like: 来自数组的随机元素。- int:间隔的整数像素
(-height_shift_range, +height_shift_range)-height_shift_range=2可能的值为整数[-1, 0, +1],与 相同height_shift_range=[-1, 0, +1],而height_shift_range=1.0可能的值为区间 [-1.0, +1.0) 中的浮点数。
我是 …
我确信已经多次询问过相反的情况,但我找不到任何关于如何生成错误的随机数的答案.
我想编写一个用于聚类分析的小程序,并希望生成一些随机点进行测试.如果我只是用随机坐标插入1000个点,它们将分散在整个场地上,这将使得聚类分析毫无价值.
有没有一种简单的方法来生成构建集群的随机数?
我已经想过要么不使用random(),但random()*random()它产生正态分布数字(我觉得我读这个地方就在这里堆栈溢出).
第二种方法是随机选取几个区域并在该区域再次运行点生成,这当然会在该区域产生一个簇.
你有更好的主意吗?
我们可以使用 ImageDataGenerator 和 flow_from_directory 方法生成图像数据集。
train_datagen = ImageDataGenerator(
rescale=1./255, #scale images from integers 0-255 to floats 0-1.
shear_range=0.2,
zoom_range=0.2, # zoom in or out in images
horizontal_flip=True) #horizontal flip of images
train_set = train_datagen.flow_from_directory(..)
Run Code Online (Sandbox Code Playgroud)
并显示:
Found 200 images belonging to 2 classes
Run Code Online (Sandbox Code Playgroud)
我想编写一个循环来计算 train_set 上的图像数量
For image in train_set:
count = count+1
print(count)
Run Code Online (Sandbox Code Playgroud)
但这不显示任何东西!
鉴于正则表达式,我想生成随机数据x次数来测试某些东西.
例如
>>> print generate_date('\d{2,3}')
13
>>> print generate_date('\d{2,3}')
422
Run Code Online (Sandbox Code Playgroud)
当然,目标是做一些比电话号码和电子邮件地址更复杂的事情.
这样的事情存在吗?如果是的话,Python是否存在?如果没有,我可以使用任何线索/理论来做到这一点?
我正在尝试使用Stream API生成Order实例.我有一个创建订单的工厂函数,DoubleStream用于初始化订单金额.
private DoubleStream doubleStream = new Random().doubles(50.0, 200.0);
private Order createOrder() {
return new Order(doubleStream.findFirst().getAsDouble());
}
@Test
public void test() {
Stream<Order> orderStream = Stream.generate(() -> {
return createOrder();
});
orderStream.limit(10).forEach(System.out::println);
Run Code Online (Sandbox Code Playgroud)
如果我使用文字(1.0)初始化Order实例,这可以正常工作.当我使用doubleStream创建随机数量时,抛出异常.
知道如何解决这个问题吗?
TIA,
奥勒
是否有像Red Gate的MS SQL Server 数据生成器这样的程序根据您的MySQL数据库模式生成数据?
其他替代方案(简单)非常欢迎实现目标!
data-generation ×10
java ×3
python ×3
keras ×2
random ×2
regex ×2
generator ×1
java-8 ×1
java-stream ×1
mysql ×1
prng ×1
python-3.x ×1
sql-server ×1
testing ×1