Mor*_*o88 7 artificial-intelligence machine-learning dataset svm
我正在实现一个非线性SVM,我想在一个简单的非线性可分数据上测试我的实现.谷歌没有帮我找到我想要的东西.你能告诉我在哪里可以找到这样的数据.或者至少,我如何手动生成这样的数据?
谢谢,
那么,SVM是两类分类器 - 即,这些分类器将数据放在单个决策边界的任一侧.
因此,我建议一个仅由两个类组成的数据集(这不是绝对必要的,因为当然SVM可以通过多次(串行)传递分类器来分隔两个以上的类,这在初始化时很麻烦.测试).
因此,例如,您可以使用与Scott的答案相关联的虹膜数据集; 它由三个类组成,I类与II类和III类线性分离; II类和III类不是线性可分的.如果你想使用这个数据集,为了方便你可能更喜欢删除Class I(大约前50个数据行),所以剩下的是一个两级系统,其中剩下的两个类不能线性分离.
虹膜数据集非常小(150 x 4,或50行/类x四个功能) - 根据您的SVM原型测试位置,这可能正是您想要的,或者您可能需要更大的数据集.
一个有趣的数据集系列只包含两个类,并且绝对是非线性可分的,是由大型交友网站eHarmony提供的匿名数据集(没有任何类型的关联).除了虹膜数据之外,我还喜欢将这些数据集用于SVM原型评估,因为它们是具有相当多功能但仍包含两个非线性可分类的大型数据集.
我知道你可以从中检索这些数据的两个地方.第一个站点有一个数据集(PCI Code downloads,chapter9,matchmaker.csv),包含500个数据点(行)和6个功能(列).虽然这个集合更容易使用,但数据或多或少处于"原始"形式,并且在使用之前需要进行一些处理.
此数据的第二个来源包含两个eHarmony数据集,其中一个包含超过五十万行和59个功能.此外,这两个数据集经过了大量处理,因此在将它们提供给SVM之前所需的唯一任务是对这些功能进行例行重新调整.
归档时间: |
|
查看次数: |
6555 次 |
最近记录: |