Pri*_*mar 4 text-mining random-forest scikit-learn
我正在使用随机森林解决分类问题.为此,我决定使用Python库scikit-learn.但我是Random Forest算法和这个工具的新手.我的数据包含许多因子变量.我用谷歌搜索了一下,发现给因子变量提供数值是不对的,就像我们在线性回归中那样,因为它将它视为连续变量并给出错误的结果.但我找不到任何关于如何处理scikit-learn中的因子变量的内容.请告诉我使用的选项或指向一些我可以获得它的文档.
jay*_*y s 11
如果您正在使用pandas数据框,则可以轻松使用get_dummies函数来完成此操作.这是一个例子:
import pandas as pd
my_data = [['a','b'],['b','a'],['c','b'],['d','a'],['a','c']]
df = pd.DataFrame(my_data, columns = ['var1','var2'])
dummy_ranks = pd.get_dummies(df['var1'], prefix = 'var1_')
print dummy_ranks
var1__a var1__b var1__c var1__d
0 1 0 0 0
1 0 1 0 0
2 0 0 1 0
3 0 0 0 1
4 1 0 0 0
[5 rows x 4 columns]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2760 次 |
| 最近记录: |