kei*_*m23 11 regression machine-learning prediction neural-network
我是一个巨大的足球迷,也对机器学习很感兴趣.作为我的ML课程的一个项目,我正在尝试建立一个模型,根据主队和客队的名称预测主队获胜的机会.(我查询我的数据集,并相应地根据以前的比赛创建数据点)两队之间)
我有几个赛季的数据给所有球队但是我有以下问题我想要一些建议...... EPL(英超联赛)有20个球队在主场和客场比赛(一个赛季共380场比赛).因此,每个赛季,任何两支球队只能互相比赛两次.
我有过去10年以上的数据,导致两队的2*10 = 20数据点.但是我不想过去3年,因为我相信球队随着时间的推移会发生相当大的变化(曼城,利物浦),这只会给系统带来更多错误.
因此,这导致每对团队只有大约6-8个数据点.但是,对于每个数据点,我确实有几个功能(最多20+),如全时目标,半场目标,传球,投篮,黄牌,红色等,因此我可以包括近期形式,近期主页等功能表格,近期表格等
然而,只有6-8个数据点才能训练的想法对我来说似乎不对.关于如何解决这个问题的任何想法?(如果这首先是一个问题,即)
谢谢!
编辑:FWIW,这是我在项目完成时编译的报告链接.https://www.dropbox.com/s/ec4a66ytfkbsncz/report.pdf .这不是什么"好"的东西,但我认为我设法引发的一些观察结果非常酷(就像我的预测对德甲联赛的效果非常好,因为拜仁一直赢得联赛).
这是一个有趣的问题,我认为它没有一个独特的解决方案.但是,如果我在你的位置,我可以尝试一些小事.
我分享你关于每节课大约6-8分的数据太少,无法建立一个可靠的模型.所以我会尝试对问题进行一些不同的建模.为了获得每个班级的更多数据,而不是20个班级,我只有两个(家/远),我会添加两个功能,一个用于团队在家,另一个用于客队.在该设置中,您仍然可以预测哪个团队在主场或客场比赛时获胜,并且您的问题有更多数据可以产生结果.
另一个想法是从其他欧洲联赛中获取数据.由于现在团队是一个功能而不是一个类,它不应该给你的模型增加太多的噪音,你可以从额外的数据中受益(假设这些功能在另一个联赛中有效)