在 scikit-learn 中使用什么估算器?

Zac*_*ach 5 algorithm machine-learning python-2.7 scikit-learn

这是我第一次接触机器学习,所以我试图弄清楚这一切是如何运作的。我有一个数据集,我在其中汇总了每个球员的所有统计数据,以便与我的高中棒球队一起比赛。我还有一份从我高中进入美国职业棒球大联盟的所有球员的名单。我想做的是将数据分成训练集和测试集,然后将其提供给 scikit-learn 包中的某些算法并预测制作 MLB 的概率。

所以我查看了许多来源,发现这个备忘单表明我从线性 SVC 开始。 SciKitLearn 备忘单

因此,根据我的理解,我需要将我的数据分解为训练样本,其中每一行是一名球员,每一列是关于球员的一段数据(击球率,基本百分比,yada,yada),X_train;以及每个球员单行的相应真值矩阵,简单地为 1(在 MLB 中比赛)或 0(未在 MLB 中比赛),Y_train。从那里,我只做 Fit(X,Y) 然后我可以使用 predict(X_test) 来查看它是否获得了正确的 Y_test 值。

这看起来是算法、方法和应用的合乎逻辑的选择吗?

编辑以提供更多信息:数据由 20 个特征组成,例如上场次数、击球次数、本垒打次数、三振出局次数等。大多数是关于球员职业生涯的基本统计数据;一些是击球率等比率。

我总共有大约 10k 行可以处理,因此我可以根据它拆分数据;但我不知道如何最佳地分割数据,因为 <1% 已经成为 MLB。