在scikit中有一个绝对有用的类GridSearchCV - 学习网格搜索和交叉验证,但我不想做交叉验证.我想在没有交叉验证的情况下进行网格搜索,并使用整个数据进行训练.更具体地说,我需要在网格搜索期间使用"oob得分"评估RandomForestClassifier制作的模型.有简单的方法吗?或者我应该自己上课?
要点是
我正在尝试将csv文件作为带有pandas的DataFrame读取,我想将索引行读为字符串.但是,由于索引的行没有任何字符,因此pandas将此数据作为整数处理.如何读作字符串?
这是我的csv文件和代码:
[sample.csv]
uid,f1,f2,f3
01,0.1,1,10
02,0.2,2,20
03,0.3,3,30
[code]
df = pd.read_csv('sample.csv', index_col="uid" dtype=float)
print df.index.values
Run Code Online (Sandbox Code Playgroud)
结果:df.index是整数,而不是字符串:
>>> [1 2 3]
Run Code Online (Sandbox Code Playgroud)
但我想把df.index作为字符串:
>>> ['01', '02', '03']
Run Code Online (Sandbox Code Playgroud)
还有一个附加条件:其余的索引数据必须是数值,它们实际上太多了,我不能用特定的列名指出它们.