Pau*_*ell 7 algorithm machine-learning data-mining
我有一个大量(100-150)的小(约1千字节)数据集.我们将这些称为"好"数据集.我也有类似数量的'坏'数据集.
现在我正在寻找软件(或者算法)来找到构成"好"数据集与"坏"数据集的规则.
这里重要的是软件处理多个数据集的能力,而不仅仅是一个大数据集.
非常感谢. 保罗.
ami*_*mit 1
一种常见的方法是使用k 最近邻。
例如,从数据集中提取字段 - 如果您的数据集是文本,则提取字段的常见方法是使用词袋。
存储“训练集”,当新数据集[未标记]到达时 - 找到与其最近的 k 个邻居[根据提取的字段]。将新数据集标记为[来自训练集]的最近 k 个近邻。
另一种常见的方法是使用决策树。决策树的问题是——不要让决策过于具体。ID3是一种现有的算法,可用于创建良好的[启发式]树
归档时间:
13 年,10 月 前
查看次数:
215 次
最近记录: