标签: data-generation

生成模拟数据的工具?

我正在寻找一个好的免费工具的建议,用于生成样本数据以便加载到测试数据库中.通过类比,可以为任何RDBMS 生成" lorem ipsum "文本.我正在寻找的功能包括:

  • 灵活地为现有表定义生成数据.
  • 能够生成小型和大型数据集(> 100万行或更多).
  • 以SQL脚本格式(INSERT语句)生成,或者以适合批量导入的平面文件格式生成(通常更快).
  • 用于轻松编写脚本的命令行界面.
  • 可扩展的开源,用动态语言编写(这些是很好的,不是很强的要求).

PS:我确实在StackOverflow上搜索了一个重复的问题,但我没找到.如果有的话,我会很高兴得到一个指针.


感谢大家的响应!我应该修改我的要求,即我使用Mac OS X作为我的主要开发环境,而不是Windows(虽然我确实说命令行界面是可取的,而且实际上排除了Windows).不过,特定于Windows的建议无疑会对这个问题的其他读者有用,所以,谢谢.


这是我的结论:

  • GenerateData:
    • PHP Web应用程序界面,而不是命令行
    • 仅限于生成200条记录(或支付20美元用于生成5,000条记录的许可)
  • RedGate SQL数据生成器
    • 不免费,价格295美元
    • 需要Windows,.NET,SQL Server
  • Visual Studio 2008数据库版
    • 需要Windows
    • 需要昂贵的MSDN或ISV订阅
  • Banner Datadect
    • 不是免费的,价格595美元
    • 需要Windows(?)
    • 不支持MySQL(?)
    • GUI,不是命令行或脚本
  • Ruby Faker宝石
    • 使用ActiveRecord进行批量数据加载的速度太慢了
  • 超级Smack
    • 主要是负载测试工具,内置随机数据生成器
    • 但是很简单
    • 总体而言,这是一个很好的亚军工具
  • Databene Benerator
    • 满足我需求的最佳解决方案
    • XML脚本,与DbUnit兼容
    • 开源(GPL)Java代码
    • 命令行用法
    • 通过JDBC直接访问许多数据库

testing data-generation

104
推荐指数
4
解决办法
9万
查看次数

Java中是否存在伪数据生成器?

我想知道Java 是否存在伪数据生成器.在Perl中存在,Data::Faker并且有一个Ruby的端口faker,用于JavaScript faker.js.有人知道Java 的假数据生成器,可以提供随机名称,电话号码,邮政信箱号码等...

java data-generation

48
推荐指数
4
解决办法
4万
查看次数

SQL服务器的数据生成器?

我想收到有关SQL服务器可用的数据生成器的建议.如果发布回复,请提供您认为重要的任何功能.

我从未使用过这样的应用程序,所以我希望接受有关该主题的教育.谢谢.

(我的目标是在每个表中填充10,000多条记录的数据库,以测试应用程序.)

sql-server generator data-generation

41
推荐指数
4
解决办法
5万
查看次数

如何从正则表达式生成与正则表达式匹配的文本?

是的,你看对了.我需要一些能够从正则表达式生成随机文本的东西.所以文本应该是随机的,但要与正则表达式匹配.它似乎不存在,但我可能是错的.

只是一个例子:该库将能够[ab]*c作为输入,并生成如下样本:

abc
abbbc
bac

等等

更新:我自己创造了一些东西:Xeger.查看http://code.google.com/p/xeger/.

java regex random data-generation

27
推荐指数
2
解决办法
7673
查看次数

了解 Keras 的 ImageDataGenerator 类中的 `width_shift_range` 和 `height_shift_range` 参数

Keras 的文档ImageDataGenerator class说——

width_shift_range: Float, 1-D array-like or int - float: 总宽度的分数,如果 < 1,或者像素,如果 >= 1。 - 1-D array-like: 来自数组的随机元素。- int:间隔的整数像素(-width_shift_range, +width_shift_range)-width_shift_range=2可能的值为整数[-1, 0, +1],与 相同width_shift_range=[-1, 0, +1],而width_shift_range=1.0可能的值为区间 [-1.0, +1.0) 中的浮点数。

height_shift_range: Float, 1-D array-like or int - float: 总高度的分数,如果 < 1,或者像素,如果 >= 1。 - 1-D array-like: 来自数组的随机元素。- int:间隔的整数像素(-height_shift_range, +height_shift_range)-height_shift_range=2可能的值为整数[-1, 0, +1],与 相同height_shift_range=[-1, 0, +1],而height_shift_range=1.0可能的值为区间 [-1.0, +1.0) 中的浮点数。

我是 …

python machine-learning data-generation python-3.x keras

16
推荐指数
1
解决办法
4681
查看次数

如何生成坏随机数

我确信已经多次询问过相反的情况,但我找不到任何关于如何生成错误的随机数的答案.

我想编写一个用于聚类分析的小程序,并希望生成一些随机点进行测试.如果我只是用随机坐标插入1000个点,它们将分散在整个场地上,这将使得聚类分析毫无价值.

有没有一种简单的方法来生成构建集群的随机数?

我已经想过要么不使用random(),但random()*random()它产生正态分布数字(我觉得我读这个地方就在这里堆栈溢出).

第二种方法是随机选取几个区域并在该区域再次运行点生成,这当然会在该区域产生一个簇.

你有更好的主意吗?

random cluster-analysis prng data-generation

10
推荐指数
2
解决办法
1525
查看次数

如何知道 flow_from_directory 中的图像数量

我们可以使用 ImageDataGenerator 和 flow_from_directory 方法生成图像数据集。

train_datagen = ImageDataGenerator(
    rescale=1./255, #scale images from integers 0-255 to floats 0-1.
    shear_range=0.2,
    zoom_range=0.2, # zoom in or out in images
    horizontal_flip=True) #horizontal flip of images
train_set = train_datagen.flow_from_directory(..)
Run Code Online (Sandbox Code Playgroud)

并显示:

Found 200 images belonging to 2 classes
Run Code Online (Sandbox Code Playgroud)

我想编写一个循环来计算 train_set 上的图像数量

For image in train_set:
    count = count+1
print(count)
Run Code Online (Sandbox Code Playgroud)

但这不显示任何东西!

python data-generation keras

10
推荐指数
1
解决办法
3801
查看次数

是否有一个lib来根据正则表达式生成数据?(Python或其他)

鉴于正则表达式,我想生成随机数据x次数来测试某些东西.

例如

>>> print generate_date('\d{2,3}')
13
>>> print generate_date('\d{2,3}')
422
Run Code Online (Sandbox Code Playgroud)

当然,目标是做一些比电话号码和电子邮件地址更复杂的事情.

这样的事情存在吗?如果是的话,Python是否存在?如果没有,我可以使用任何线索/理论来做到这一点?

python regex data-generation

8
推荐指数
1
解决办法
942
查看次数

Java 8 Stream IllegalStateException:Stream已经被操作或关闭

我正在尝试使用Stream API生成Order实例.我有一个创建订单的工厂函数,DoubleStream用于初始化订单金额.

private DoubleStream doubleStream = new Random().doubles(50.0, 200.0);

private Order createOrder() {
    return new Order(doubleStream.findFirst().getAsDouble());
}

@Test
public void test() {

Stream<Order> orderStream = Stream.generate(() -> {
    return createOrder();
});

orderStream.limit(10).forEach(System.out::println);
Run Code Online (Sandbox Code Playgroud)

如果我使用文字(1.0)初始化Order实例,这可以正常工作.当我使用doubleStream创建随机数量时,抛出异常.

知道如何解决这个问题吗?

TIA,

奥勒

java data-generation java-8 java-stream

8
推荐指数
1
解决办法
1万
查看次数

生成MySQL表的数据

是否有像Red Gate的MS SQL Server 数据生成器这样的程序根据您的MySQL数据库模式生成数据?

其他替代方案(简单)非常欢迎实现目标!

mysql data-generation

7
推荐指数
1
解决办法
1478
查看次数