标签: data-generation

快速模拟分层数据的方法

我正在寻求一种快速简便的解决方案来帮助模拟/填充/测试组织结构图(在ASP MVC中),使用基于树的数据或分层数据.我需要这个测试数据......

我使用了http://www.generatedata.com和mock-aro(我喜欢这两种,但是来自网站的MS Sql数据不起作用,它有多个语法错误,包括基于日期的日期问题数据)并查看了redgate - 这是不可承受的,而且它从来没有在嵌套方面获得正确的数据.

什么是最快/最省力的方式/工具来模拟层次结构数据, 如组织结构图,部门,名称,成本和员工？

mocking hierarchical-data neo4j data-generation

agg*_*gie

lucky-day

4
推荐指数

1
解决办法

875
查看次数

Keras 图像数据生成器显示标签

我正在使用 ImageDataGenerator 来增强我的图像。我需要从生成器中获取 y 标签。

示例：我有 10 张训练图像，其中 7 张是标签 0，3 张是标签 1。我想将训练集大小增加到 100。

total_training_images = 100 total_val_images = 50

model.fit_generator(
    train_generator,
    steps_per_epoch= total_training_images // batch_size,
    epochs=epochs,
    validation_data=validation_generator,
    validation_steps= total_val_images // batch_size)

Run Code Online (Sandbox Code Playgroud)

据我了解，这会在每个 epoch 的 100 个训练图像上训练模型，根据我的数据生成器以某种方式增强每个图像，然后在 50 个图像上进行验证。

如果我这样做train_generator.classes，我会得到一个输出 [0,0,0,0,0,0,0,1,1,1]。这对应于我的 7 张标签 0 图像和 3 张标签 1 图像。

对于这 100 张新图像，我如何获得 y 标签？这是否意味着当我将其增加到 100 张图像时，我的新train_generator标签是相同的，但重复了 10 次？基本上是np.append(train_generator.classes)10次？

我正在关注本教程，如果有帮助的话：https : //blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html

image data-generation deep-learning keras

Adi*_*hvi

2017 09-01

4
推荐指数

1
解决办法

1万
查看次数

使用现有数据集作为基础数据集生成数据

我有一个由 100k 个唯一数据记录组成的数据集，为了对代码进行基准测试，我需要对具有 500 万个唯一记录的数据进行测试，我不想生成随机数据。我想使用我拥有的 100k 数据记录作为基础数据集，并生成与它类似的剩余数据，并为某些列提供唯一值，如何使用 python 或 Scala 来做到这一点？

这是示例数据

latitude   longitude  step count
25.696395   -80.297496  1   1
25.699544   -80.297055  1   1
25.698612   -80.292015  1   1
25.939942   -80.341607  1   1
25.939221   -80.349899  1   1
25.944992   -80.346589  1   1
27.938951   -82.492018  1   1
27.944691   -82.48961   1   3
28.355484   -81.55574   1   1

Run Code Online (Sandbox Code Playgroud)

每对纬度和经度在生成的数据中应该是唯一的，我也应该能够为这些列设置最小值和最大值

python scala data-generation

nam*_*tha

2018 04-07

4
推荐指数

1
解决办法

4820
查看次数

如何在 Bogus 中为多个选项生成规则？

我有一个随机选择选项的规则：

    .RuleFor(c=>field, x=>x.PickRandom("Option1", "Option2", "Option3", "Option4"))

Run Code Online (Sandbox Code Playgroud)

使用默认值，我可以更改其中一项的概率。我想设置所有四个项目的概率。选项 1 的概率为 50%，选项 2 的概率为 30%，选项 3 的概率为 15%，选项 4 的概率为 5%。

我想使用 WeightedRandom：

    .RuleFor(c=>field, x=>PickWeightedRandom(valueArray, weightArray)

Run Code Online (Sandbox Code Playgroud)

没有像 PickWeightedRandom 这样的方法，但 WeightedRandom 是 Randomizer 类中的一个方法。如何让 WeightedRandom 发挥作用？

编辑：也许是一种扩展方法？

c# testing data-generation bogus

Cak*_*ter

2021 01-22

4
推荐指数

1
解决办法

1908
查看次数

生成单热编码的字符串表示形式

在Python中,我需要生成一个dict将字母映射到该字母的预定义" 一热 "表示的字母.举例来说,dict应该是这样的:

{ 'A': '1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0',
  'B': '0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0', # ...
}

Run Code Online (Sandbox Code Playgroud)

每个字母表中有一位(表示为字符).因此,每个字符串将包含25个零和一个1.该位置1由字母表中相应字母的位置确定.

我想出了一些生成这个的代码:

# Character set is explicitly specified for fine grained control
_letters …

Run Code Online (Sandbox Code Playgroud)

python data-generation

E.M*_*.M.

2010 12-14

3
推荐指数

1
解决办法

1437
查看次数

在python中测试数据生成框架？

是否有任何"测试数据"生成框架,特别是对于Python？

为了说清楚,而不是从头开始编写脚本,用随机用户和其他实体填充我的数据库,我想知道是否有任何工具/框架使其更容易,

为了使它更加清晰,我不是在寻找测试框架,我想生成测试数据来"加载"我的应用程序.

python testing test-data data-generation

Ali*_*Ali

2018 11-27

3
推荐指数

1
解决办法

4019
查看次数

在Oracle中即时构建数字表

如何根据当前日期返回包含过去四年的行集？

如果此查询在12/31/2010运行,则应返回:

Run Code Online (Sandbox Code Playgroud)

但是如果它在2011年1月1日运行它应该返回:

Run Code Online (Sandbox Code Playgroud)

这是我开始的,两个返回起始年份的查询.我更喜欢第二种,因为转换为字符串对我来说感觉有点脏.

SELECT TO_CHAR(TRUNC(sysdate, 'YY') - INTERVAL '3' YEAR, 'YYYY') FROM DUAL;
SELECT EXTRACT (YEAR FROM sysdate) - 3 FROM DUAL;

Run Code Online (Sandbox Code Playgroud)

但我不知道如何生成行来充实它.在SQL Server中,我将在此页面的fn_nums函数中使用CTE .

sql oracle11g data-generation

Eri*_*ikE

2012 06-14

2
推荐指数

1
解决办法

2998
查看次数

Perl - 为正则表达式生成所有匹配字符串

我是perl的新手,我想知道是否有一种方法可以生成所有匹配正则表达式的组合.

生成所有匹配字符串的最佳方法是:

05[0,2,4,7][\d]{7}

Run Code Online (Sandbox Code Playgroud)

提前致谢.

regex perl data-generation

Ron*_*nIL

2012 05-19

2
推荐指数

1
解决办法

1712
查看次数

生成测试数据-如何为给定的美国邮政编码生成有效地址？

我正在创建一个依赖地址的工具。为了进行测试，我想创建大量有效的美国地址。我有GeoNames邮政编码数据，我想为美国的〜41,000个邮政编码生成一些真实地址。

我发现FakeAddressGenerator和FakeName之类的网站声称会生成随机的，有效的美国地址。这些网站如何运作？在不依赖抓取这些网站的情况下，我该怎么做？

理想情况下，我希望能够在Python中完成此操作；利用Web服务就可以了（似乎FakeAddressGenerator或FakeName都不提供这种Web服务）。

谢谢！

python data-generation street-address

Jos*_*eph

lucky-day

2
推荐指数

1
解决办法

5569
查看次数

具有多处理功能的 Tensorflow2.x 自定义数据生成器

我刚刚升级到tensorflow 2.3。我想制作自己的数据生成器用于训练。使用tensorflow 1.x，我这样做了：

def get_data_generator(test_flag):
  item_list = load_item_list(test_flag)
  print('data loaded')
  while True:
    X = []
    Y = []
    for _ in range(BATCH_SIZE):
      x, y = get_random_augmented_sample(item_list)
      X.append(x)
      Y.append(y)
    yield np.asarray(X), np.asarray(Y)

data_generator_train = get_data_generator(False)
data_generator_test = get_data_generator(True)
model.fit_generator(data_generator_train, validation_data=data_generator_test, 
                    epochs=10000, verbose=2,
                    use_multiprocessing=True,
                    workers=8,
                    validation_steps=100,
                    steps_per_epoch=500,
                    )

Run Code Online (Sandbox Code Playgroud)

这段代码在tensorflow 1.x 上运行良好。系统中创建了8个进程。处理器和显卡加载完美。“数据已加载”打印了 8 次。

使用tensorflow 2.3我收到警告：