我正在尝试使用 TensorFlow 的 DNNClassifier 来解决我的 4 个不同类的多类(softmax)分类问题。我有一个具有以下分布的不平衡数据集:
如何weight_column为每个类的 DNNClassifier 分配权重?我知道如何对此进行编码,但我想知道我应该为每个类提供什么值。
machine-learning neural-network deep-learning keras tensorflow
我正在弄清楚如何根据列值获取Pandas中 的标签索引DataFrame.我有以下内容DataFrame:
d = {'col1': ['label1', 'label2', 'label3'],
'col2': ['label2', 'label3', 'label1'],
'col3': ['label2', 'label1', 'label3'],
'col4': ['label3', 'label1', 'label2']}
df = pd.DataFrame(data = d)
Run Code Online (Sandbox Code Playgroud)
格式为:
col1 col2 col3 col4
0 label1 label2 label2 label3
1 label2 label3 label1 label1
2 label3 label1 label3 label2
Run Code Online (Sandbox Code Playgroud)
我想把它变成以下形式:
label1 label2 label3
col1 0 1 2
col2 2 0 1
col3 1 0 2
col4 1 2 0
Run Code Online (Sandbox Code Playgroud)
这将告诉原始DataFrame中相应列中每个标签的索引df.例如,col3标签1-3的索引分别是1,0和2.