标签: data-generation

快速模拟分层数据的方法

我正在寻求一种快速简便的解决方案来帮助模拟/填充/测试组织结构图(在ASP MVC中),使用基于树的数据或分层数据.我需要这个测试数据......

我使用了http://www.generatedata.com和mock-aro(我喜欢这两种,但是来自网站的MS Sql数据不起作用,它有多个语法错误,包括基于日期的日期问题数据)并查看了redgate - 这是不可承受的,而且它从来没有在嵌套方面获得正确的数据.

什么是最快/最省力的方式/工具来模拟层次结构数据, 如组织结构图,部门,名称,成本和员工

mocking hierarchical-data neo4j data-generation

4
推荐指数
1
解决办法
875
查看次数

Keras 图像数据生成器显示标签

我正在使用 ImageDataGenerator 来增强我的图像。我需要从生成器中获取 y 标签。

示例:我有 10 张训练图像,其中 7 张是标签 0,3 张是标签 1。我想将训练集大小增加到 100。

total_training_images = 100 total_val_images = 50

model.fit_generator(
    train_generator,
    steps_per_epoch= total_training_images // batch_size,
    epochs=epochs,
    validation_data=validation_generator,
    validation_steps= total_val_images // batch_size)
Run Code Online (Sandbox Code Playgroud)

据我了解,这会在每个 epoch 的 100 个训练图像上训练模型,根据我的数据生成器以某种方式增强每个图像,然后在 50 个图像上进行验证。

如果我这样做train_generator.classes,我会得到一个输出 [0,0,0,0,0,0,0,1,1,1]。这对应于我的 7 张标签 0 图像和 3 张标签 1 图像。

对于这 100 张新图像,我如何获得 y 标签?这是否意味着当我将其增加到 100 张图像时,我的新train_generator标签是相同的,但重复了 10 次?基本上是np.append(train_generator.classes)10次​​?

我正在关注本教程,如果有帮助的话:https : //blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html

image data-generation deep-learning keras

4
推荐指数
1
解决办法
1万
查看次数

使用现有数据集作为基础数据集生成数据

我有一个由 100k 个唯一数据记录组成的数据集,为了对代码进行基准测试,我需要对具有 500 万个唯一记录的数据进行测试,我不想生成随机数据。我想使用我拥有的 100k 数据记录作为基础数据集,并生成与它类似的剩余数据,并为某些列提供唯一值,如何使用 python 或 Scala 来做到这一点?

这是示例数据

latitude   longitude  step count
25.696395   -80.297496  1   1
25.699544   -80.297055  1   1
25.698612   -80.292015  1   1
25.939942   -80.341607  1   1
25.939221   -80.349899  1   1
25.944992   -80.346589  1   1
27.938951   -82.492018  1   1
27.944691   -82.48961   1   3
28.355484   -81.55574   1   1
Run Code Online (Sandbox Code Playgroud)

每对纬度和经度在生成的数据中应该是唯一的,我也应该能够为这些列设置最小值和最大值

python scala data-generation

4
推荐指数
1
解决办法
4820
查看次数

如何在 Bogus 中为多个选项生成规则?

我有一个随机选择选项的规则:

    .RuleFor(c=>field, x=>x.PickRandom("Option1", "Option2", "Option3", "Option4"))
Run Code Online (Sandbox Code Playgroud)

使用默认值,我可以更改其中一项的概率。我想设置所有四个项目的概率。选项 1 的概率为 50%,选项 2 的概率为 30%,选项 3 的概率为 15%,选项 4 的概率为 5%。

我想使用 WeightedRandom:

    .RuleFor(c=>field, x=>PickWeightedRandom(valueArray, weightArray)
Run Code Online (Sandbox Code Playgroud)

没有像 PickWeightedRandom 这样的方法,但 WeightedRandom 是 Randomizer 类中的一个方法。如何让 WeightedRandom 发挥作用?

编辑:也许是一种扩展方法?

c# testing data-generation bogus

4
推荐指数
1
解决办法
1908
查看次数

生成单热编码的字符串表示形式

在Python中,我需要生成一个dict将字母映射到该字母的预定义" 一热 "表示的字母.举例来说,dict应该是这样的:

{ 'A': '1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0',
  'B': '0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0', # ...
}
Run Code Online (Sandbox Code Playgroud)

每个字母表中有一位(表示为字符).因此,每个字符串将包含25个零和一个1.该位置1由字母表中相应字母的位置确定.

我想出了一些生成这个的代码:

# Character set is explicitly specified for fine grained control
_letters …
Run Code Online (Sandbox Code Playgroud)

python data-generation

3
推荐指数
1
解决办法
1437
查看次数

在python中测试数据生成框架?

是否有任何"测试数据"生成框架,特别是对于Python?

为了说清楚,而不是从头开始编写脚本,用随机用户和其他实体填充我的数据库,我想知道是否有任何工具/框架使其更容易,

为了使它更加清晰,我不是在寻找测试框架,我想生成测试数据来"加载"我的应用程序.

python testing test-data data-generation

3
推荐指数
1
解决办法
4019
查看次数

在Oracle中即时构建数字表

如何根据当前日期返回包含过去四年的行集?

如果此查询在12/31/2010运行,则应返回:

2007
2008
2009
2010
Run Code Online (Sandbox Code Playgroud)

但是如果它在2011年1月1日运行它应该返回:

2008
2009
2010
2011
Run Code Online (Sandbox Code Playgroud)

这是我开始的,两个返回起始年份的查询.我更喜欢第二种,因为转换为字符串对我来说感觉有点脏.

SELECT TO_CHAR(TRUNC(sysdate, 'YY') - INTERVAL '3' YEAR, 'YYYY') FROM DUAL;
SELECT EXTRACT (YEAR FROM sysdate) - 3 FROM DUAL;
Run Code Online (Sandbox Code Playgroud)

但我不知道如何生成行来充实它.在SQL Server中,我将在此页面的fn_nums函数中使用CTE .

sql oracle11g data-generation

2
推荐指数
1
解决办法
2998
查看次数

Perl - 为正则表达式生成所有匹配字符串

我是perl的新手,我想知道是否有一种方法可以生成所有匹配正则表达式的组合.

生成所有匹配字符串的最佳方法是:

05[0,2,4,7][\d]{7}
Run Code Online (Sandbox Code Playgroud)

提前致谢.

regex perl data-generation

2
推荐指数
1
解决办法
1712
查看次数

生成测试数据-如何为给定的美国邮政编码生成有效地址?

我正在创建一个依赖地址的工具。为了进行测试,我想创建大量有效的美国地址。我有GeoNames邮政编码数据,我想为美国的〜41,000个邮政编码生成一些真实地址。

我发现FakeAddressGeneratorFakeName之类的网站声称会生成随机的,有效的美国地址。这些网站如何运作?在不依赖抓取这些网站的情况下,我该怎么做?

理想情况下,我希望能够在Python中完成此操作;利用Web服务就可以了(似乎FakeAddressGenerator或FakeName都不提供这种Web服务)。

谢谢!

python data-generation street-address

2
推荐指数
1
解决办法
5569
查看次数

具有多处理功能的 Tensorflow2.x 自定义数据生成器

我刚刚升级到tensorflow 2.3。我想制作自己的数据生成器用于训练。使用tensorflow 1.x,我这样做了:

def get_data_generator(test_flag):
  item_list = load_item_list(test_flag)
  print('data loaded')
  while True:
    X = []
    Y = []
    for _ in range(BATCH_SIZE):
      x, y = get_random_augmented_sample(item_list)
      X.append(x)
      Y.append(y)
    yield np.asarray(X), np.asarray(Y)

data_generator_train = get_data_generator(False)
data_generator_test = get_data_generator(True)
model.fit_generator(data_generator_train, validation_data=data_generator_test, 
                    epochs=10000, verbose=2,
                    use_multiprocessing=True,
                    workers=8,
                    validation_steps=100,
                    steps_per_epoch=500,
                    )
Run Code Online (Sandbox Code Playgroud)

这段代码在tensorflow 1.x 上运行良好。系统中创建了8个进程。处理器和显卡加载完美。“数据已加载”打印了 8 次。

使用tensorflow 2.3我收到警告:

警告:tensorflow:多处理可能与 TensorFlow 交互不良,导致不确定性死锁。对于高性能数据管道,建议使用 tf.data。

“数据已加载”打印一次(应该是8次)。GPU 没有得到充分利用。每个 epoch 都会有内存泄漏,因此训练会在几个 epoch 后停止。use_multiprocessing 标志没有帮助。

如何在tensorflow(keras) 2.x中制作一个可以轻松跨多个CPU进程并行化的生成器/迭代器?死锁和数据顺序并不重要。

data-generation keras tensorflow tf.keras custom-training

2
推荐指数
1
解决办法
4856
查看次数