我正在寻求一种快速简便的解决方案来帮助模拟/填充/测试组织结构图(在ASP MVC中),使用基于树的数据或分层数据.我需要这个测试数据......
我使用了http://www.generatedata.com和mock-aro(我喜欢这两种,但是来自网站的MS Sql数据不起作用,它有多个语法错误,包括基于日期的日期问题数据)并查看了redgate - 这是不可承受的,而且它从来没有在嵌套方面获得正确的数据.
什么是最快/最省力的方式/工具来模拟层次结构数据, 如组织结构图,部门,名称,成本和员工?
我正在使用 ImageDataGenerator 来增强我的图像。我需要从生成器中获取 y 标签。
示例:我有 10 张训练图像,其中 7 张是标签 0,3 张是标签 1。我想将训练集大小增加到 100。
total_training_images = 100 total_val_images = 50
model.fit_generator(
train_generator,
steps_per_epoch= total_training_images // batch_size,
epochs=epochs,
validation_data=validation_generator,
validation_steps= total_val_images // batch_size)
Run Code Online (Sandbox Code Playgroud)
据我了解,这会在每个 epoch 的 100 个训练图像上训练模型,根据我的数据生成器以某种方式增强每个图像,然后在 50 个图像上进行验证。
如果我这样做train_generator.classes,我会得到一个输出 [0,0,0,0,0,0,0,1,1,1]。这对应于我的 7 张标签 0 图像和 3 张标签 1 图像。
对于这 100 张新图像,我如何获得 y 标签?这是否意味着当我将其增加到 100 张图像时,我的新train_generator标签是相同的,但重复了 10 次?基本上是np.append(train_generator.classes)10次?
我正在关注本教程,如果有帮助的话:https : //blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html
我有一个由 100k 个唯一数据记录组成的数据集,为了对代码进行基准测试,我需要对具有 500 万个唯一记录的数据进行测试,我不想生成随机数据。我想使用我拥有的 100k 数据记录作为基础数据集,并生成与它类似的剩余数据,并为某些列提供唯一值,如何使用 python 或 Scala 来做到这一点?
这是示例数据
latitude longitude step count
25.696395 -80.297496 1 1
25.699544 -80.297055 1 1
25.698612 -80.292015 1 1
25.939942 -80.341607 1 1
25.939221 -80.349899 1 1
25.944992 -80.346589 1 1
27.938951 -82.492018 1 1
27.944691 -82.48961 1 3
28.355484 -81.55574 1 1
Run Code Online (Sandbox Code Playgroud)
每对纬度和经度在生成的数据中应该是唯一的,我也应该能够为这些列设置最小值和最大值
我有一个随机选择选项的规则:
.RuleFor(c=>field, x=>x.PickRandom("Option1", "Option2", "Option3", "Option4"))
Run Code Online (Sandbox Code Playgroud)
使用默认值,我可以更改其中一项的概率。我想设置所有四个项目的概率。选项 1 的概率为 50%,选项 2 的概率为 30%,选项 3 的概率为 15%,选项 4 的概率为 5%。
我想使用 WeightedRandom:
.RuleFor(c=>field, x=>PickWeightedRandom(valueArray, weightArray)
Run Code Online (Sandbox Code Playgroud)
没有像 PickWeightedRandom 这样的方法,但 WeightedRandom 是 Randomizer 类中的一个方法。如何让 WeightedRandom 发挥作用?
编辑:也许是一种扩展方法?
在Python中,我需要生成一个dict将字母映射到该字母的预定义" 一热 "表示的字母.举例来说,dict应该是这样的:
{ 'A': '1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0',
'B': '0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0', # ...
}
Run Code Online (Sandbox Code Playgroud)
每个字母表中有一位(表示为字符).因此,每个字符串将包含25个零和一个1.该位置1由字母表中相应字母的位置确定.
我想出了一些生成这个的代码:
# Character set is explicitly specified for fine grained control
_letters …Run Code Online (Sandbox Code Playgroud) 是否有任何"测试数据"生成框架,特别是对于Python?
为了说清楚,而不是从头开始编写脚本,用随机用户和其他实体填充我的数据库,我想知道是否有任何工具/框架使其更容易,
为了使它更加清晰,我不是在寻找测试框架,我想生成测试数据来"加载"我的应用程序.
如何根据当前日期返回包含过去四年的行集?
如果此查询在12/31/2010运行,则应返回:
2007
2008
2009
2010
Run Code Online (Sandbox Code Playgroud)
但是如果它在2011年1月1日运行它应该返回:
2008
2009
2010
2011
Run Code Online (Sandbox Code Playgroud)
这是我开始的,两个返回起始年份的查询.我更喜欢第二种,因为转换为字符串对我来说感觉有点脏.
SELECT TO_CHAR(TRUNC(sysdate, 'YY') - INTERVAL '3' YEAR, 'YYYY') FROM DUAL;
SELECT EXTRACT (YEAR FROM sysdate) - 3 FROM DUAL;
Run Code Online (Sandbox Code Playgroud)
但我不知道如何生成行来充实它.在SQL Server中,我将在此页面的fn_nums函数中使用CTE .
我是perl的新手,我想知道是否有一种方法可以生成所有匹配正则表达式的组合.
生成所有匹配字符串的最佳方法是:
05[0,2,4,7][\d]{7}
Run Code Online (Sandbox Code Playgroud)
提前致谢.
我正在创建一个依赖地址的工具。为了进行测试,我想创建大量有效的美国地址。我有GeoNames邮政编码数据,我想为美国的〜41,000个邮政编码生成一些真实地址。
我发现FakeAddressGenerator和FakeName之类的网站声称会生成随机的,有效的美国地址。这些网站如何运作?在不依赖抓取这些网站的情况下,我该怎么做?
理想情况下,我希望能够在Python中完成此操作;利用Web服务就可以了(似乎FakeAddressGenerator或FakeName都不提供这种Web服务)。
谢谢!
我刚刚升级到tensorflow 2.3。我想制作自己的数据生成器用于训练。使用tensorflow 1.x,我这样做了:
def get_data_generator(test_flag):
item_list = load_item_list(test_flag)
print('data loaded')
while True:
X = []
Y = []
for _ in range(BATCH_SIZE):
x, y = get_random_augmented_sample(item_list)
X.append(x)
Y.append(y)
yield np.asarray(X), np.asarray(Y)
data_generator_train = get_data_generator(False)
data_generator_test = get_data_generator(True)
model.fit_generator(data_generator_train, validation_data=data_generator_test,
epochs=10000, verbose=2,
use_multiprocessing=True,
workers=8,
validation_steps=100,
steps_per_epoch=500,
)
Run Code Online (Sandbox Code Playgroud)
这段代码在tensorflow 1.x 上运行良好。系统中创建了8个进程。处理器和显卡加载完美。“数据已加载”打印了 8 次。
使用tensorflow 2.3我收到警告:
警告:tensorflow:多处理可能与 TensorFlow 交互不良,导致不确定性死锁。对于高性能数据管道,建议使用 tf.data。
“数据已加载”打印一次(应该是8次)。GPU 没有得到充分利用。每个 epoch 都会有内存泄漏,因此训练会在几个 epoch 后停止。use_multiprocessing 标志没有帮助。
如何在tensorflow(keras) 2.x中制作一个可以轻松跨多个CPU进程并行化的生成器/迭代器?死锁和数据顺序并不重要。