神经网络训练的数据集

Jef*_*mas 37 training-data neural-network

我正在寻找一些相对简单的数据集来测试和比较人工神经网络的不同训练方法.我希望数据不需要太多的预处理就可以将其转换为输入和输出列表的输入格式(归一化为0-1).任何链接赞赏.

cal*_*son 53

https://archive.ics.uci.edu/ml是加州大学欧文分校的机器学习数据库.这是一个非常好的资源,我相信它们都是CSV文件.


adr*_*nks 36

为什么不尝试像sin函数那样简单的训练数据呢?由于您正在比较培训方法并且并不真正关心您正在为网络培训的内容,因此应该可以轻松生成培训数据.

使用sin(x)训练网络,其中x是输入,输出是函数的值.在您的情况下,额外的好处是结果的绝对值已经在0-1范围内.它同样适用于其他数学函数.

  • 只需我的两分钱:adrianbanks 所说的一切,加上:在 MS Excel 中,您可以非常轻松地生成数据,创建一个数字范围从 -180.0 到 180.0 的列,增量为 0.1,然后在第二列中添加一个单元格“ =SIN(A1)",然后也填充该列。以 CSV 或任何您希望的格式导出数据。我也在使用 x=x^2, x=x^3, x=x^4, x=sqrt(x) 函数。 (2认同)

pho*_*xis 13

有些资源是

我认为你不需要进行大量的预处理.与分类变量一样,您可以使用GUI文本编辑器快速替换它们.例如,鲍鱼数据集有一个分类属性,即性别,其中男性为"M",女性为"F",婴儿为"I".您可以在文本编辑器中按Ctrl + R并将所有出现的"M"替换为1,0,0所有出现的"F" 0,1,0和所有出现的"I" 0,0,1(考虑到文件是CSV格式).这将快速替换分类变量.

如果您在R中,则可以使用RSNNS包normalizeData附带的功能来缩放和标准化0和1中的数据.

如果你在octavematlab等其他环境中,你可以花一些时间来编写你的代码.我不知道这些环境中的可用功能,我使用我的代码来扩展和/或规范化数据.

使用函数时,您的工作变得更加容易,并且在准备数据后,将修改后的数据保存在文件中.

记住一件事,训练神经网络的目标不仅仅是训练网络,使其在某个训练集上运行良好.主要目标是训练网络,使其对网络未见(直接或间接)的新数据具有最佳误差.