我打算对我的数据进行一些数据调整.
情况 - 我有一个有字段的数据country.它包含用户输入的国家/地区名称(可能包含拼写错误或同一国家/地区的不同国家/地区名称,例如美国/美国/美国).我有一个正确的国家/地区名称列表.
我想要的 - 预测它指的是哪个最近的国家.例如 - 如果U.S.给出,那么它将更改为USA(在我们的列表中更正国家名称).
我有什么方法可以使用Java或opennlp或任何其他方法吗?
我正在创建决策树,我的数据属于以下类型
X1 |X2 |X3|.....X50|Y
_____________________________________
1 |5 |7 |.....0 |1
1.5|34 |81|.....0 |1
4 |21 |21|.... 1 |0
65 |34 |23|.....1 |1
Run Code Online (Sandbox Code Playgroud)
我正在尝试执行以下代码:
X_train = data.iloc[:,0:51]
Y_train = data.iloc[:,51]
clf = DecisionTreeClassifier(criterion = "entropy", random_state = 100,
max_depth=8, min_samples_leaf=15)
clf.fit(X_train, y_train)
Run Code Online (Sandbox Code Playgroud)
我想要的是可以预测特定类别的决策规则(在这种情况下为“ 0”)。例如,
when X1 > 4 && X5> 78 && X50 =100 Then Y = 0 ( Probability =84%)
When X4 = 56 && X39 < 100 Then Y = 0 ( Probability = 93%)
...
Run Code Online (Sandbox Code Playgroud)
因此,基本上我希望所有叶子节点,附加的决策规则以及Y = 0的概率到来,从而预测Class …
python machine-learning decision-tree python-3.x scikit-learn