我正在使用Open Images Dataset上的TensorFlow对象检测API对SSD对象检测器进行微调。我的训练数据包含不平衡的课程,例如
我想为分类损失增加类权重以提高性能。我怎么做?配置文件的以下部分似乎相关:
loss {
classification_loss {
weighted_sigmoid {
}
}
localization_loss {
weighted_smooth_l1 {
}
}
...
classification_weight: 1.0
localization_weight: 1.0
}
Run Code Online (Sandbox Code Playgroud)
如何更改配置文件以添加每个类的分类损失权重?如果不通过配置文件,建议采取哪种方式?
我在远程函数中遇到DomainError,我想知道是否有办法调试错误.我在跑:
@sync for i=1:n_machines
refs[i] = @spawnat machines[i] run_gibbs(X_distributed, dpmm, mult, z)
end
Run Code Online (Sandbox Code Playgroud)
我不相信Debug包支持分布式代码.我也试过Gallium,但是,当我输入时,分布式数据数组X没有传递给函数:
@enter run_gibbs(X_distributed, dpmm, mult, z)
Run Code Online (Sandbox Code Playgroud)
在Julia的远程函数调用中调试代码的最佳方法是什么?
我正在使用pySpark ML LDA库来适合sklearn的20个新闻组数据集上的主题模型。我正在训练语料库上进行标准标记化,停用词删除和tf-idf转换。最后,我可以获取主题并打印出单词索引及其权重:
topics = model.describeTopics()
topics.show()
+-----+--------------------+--------------------+
|topic| termIndices| termWeights|
+-----+--------------------+--------------------+
| 0|[5456, 6894, 7878...|[0.03716766297248...|
| 1|[5179, 3810, 1545...|[0.12236370744240...|
| 2|[5653, 4248, 3655...|[1.90742686393836...|
...
Run Code Online (Sandbox Code Playgroud)
但是,如何从术语索引映射到实际单词以可视化主题?我正在将HashingTF应用于字符串的标记化列表,以得出术语索引。如何生成用于可视化主题的字典(从索引到单词的映射)?
我有兴趣在Julia中使用正则表达式分割一行.我的输入是Blei的LDA-C格式的语料库,docId wordID : wordCNT例如,包含五个单词的文档表示如下:
186 0:1 12:1 15:2 3:1 4:1
Run Code Online (Sandbox Code Playgroud)
我正在寻找一种方法将单词及其计数聚合成单独的数组,即我想要的输出:
words = [0, 12, 15, 3, 4]
counts = [1, 1, 2, 1, 1]
Run Code Online (Sandbox Code Playgroud)
我试过用了m = match(r"(\d+):(\d+)",line).但是,它只找到第一对0:1.我正在寻找类似Python的东西re.compile(r'[ :]').split(line).我如何根据朱莉娅的正则表达式划分一条线?