标签: classification

我认为是机器学习问题的最佳方法

我想在这里找一些专家指导,了解解决问题的最佳方法.我研究了一些机器学习,神经网络和类似的东西.我调查了weka,某种贝叶斯解决方案...... R ..几个不同的东西.不过,我不知道该怎么做.这是我的问题.

我已经或将要有大量的活动......最终大约有10万左右.每个事件由几个(30-50)个自变量和我关心的1个因变量组成.在确定因变量的值时,一些自变量比其他变量更重要.而且,这些事件与时间有关.今天发生的事情比10年前发生的事情更重要.

我希望能够为某种学习引擎提供一个事件,并让它预测因变量.然后,知道这个事件的因变量的真实答案(以及之前出现的所有事件),我希望能够训练后续的猜测.

一旦我了解了编程方向,我就可以进行研究并弄清楚如何将我的想法转化为代码.但我的背景是并行编程而不是这样的东西,所以我很乐意就此提出一些建议和指导.

谢谢!

编辑:这里有一些关于我试图解决的问题的更多细节:这是一个定价问题.让我们说我想要预测随机漫画书的价格.价格是我唯一关心的事情.但是有很多独立的变量可以提出来.它是超人漫画,还是Hello Kitty漫画.多大了？条件是什么？经过一段时间的训练后,我希望能够提供有关我可能正在考虑的漫画书的信息,并让它为漫画书给我一个合理的预期价值.好.所以漫画书可能是一个虚假的例子.但是你得到了一般的想法.到目前为止,从答案中,我正在对支持向量机和Naive Bayes进行一些研究.感谢您迄今为止的所有帮助.

modeling regression classification machine-learning neural-network

Kir*_*rby

2009 07-19

9
推荐指数

2
解决办法

1211
查看次数

SVM优于十亿树和AdaBoost算法的优点

我正在研究数据的二进制分类,我想知道使用支持向量机优于决策树和自适应Boosting算法的优缺点.

classification machine-learning svm decision-tree adaboost

Aks*_*kre

2012 05-17

9
推荐指数

1
解决办法

7985
查看次数

为什么线性svms适用于HoG描述符？

好吧,我见过的几乎所有使用HoG功能的应用程序都使用线性svm作为分类器.有人可以解释为什么选择线性svm以及为什么它们会有良好的性能？

选择线性svm是因为它比使用多项式或高斯内核的svms更简单,更容易训练并且使用这些内核并没有提供明显更好的性能吗？

classification machine-learning object-detection computer-vision

kru*_*son

lucky-day

9
推荐指数

1
解决办法

1268
查看次数

如何使用scikit交叉验证模块将数据(原始文本)拆分为测试/训练集？

我在原始文本中有大量的意见(2500).我想使用scikit-learn库将它们分成测试/训练集.用scikit-learn解决这个任务可能是最好的方法吗？任何人都可以给我一个在测试/训练集中拆分原始文本的例子(可能我会使用tf-idf表示).

classification machine-learning scikit-learn cross-validation text-classification

ano*_*non

2014 09-12

9
推荐指数

1
解决办法

1万
查看次数

用户从分类用户行为中分析Mahout

我正在尝试使用Mahout对用户进行聚类和分类.目前我处于规划阶段,我的想法与想法完全混合,因为我对这个领域相对较新,所以我坚持数据格式化.

假设我们有两个数据表(足够大).在第一个表中有用户及其操作.每个用户至少有一个动作,他们也可以有太多的动作.表中有大约10000个不同的user_actions和数百万条记录.

user        - user_action
u1          - a
u2          - b
u3          - a
u1          - c
u2          - c
u2          - c
u1          - b
u4          - f
u4          - e
u1          - e
u1          - d
u5          - d

Run Code Online (Sandbox Code Playgroud)

在另一个表中,有行动类别.每个动作可能没有或多个类别.共有60个类别.

user_action - category
a           - cat1
b           - cat2
c           - cat1
d           - NULL
e           - cat1, cat3
f           - cat4

Run Code Online (Sandbox Code Playgroud)

我将尝试使用Mahout构建用户分类模型,但我不知道应该做什么.我应该创建什么类型的用户向量？或者我真的需要用户向量吗？

我想我需要创造类似的东西;

u1 (a, c, b, e, d)
u2 (b, c, c)
u3 …

Run Code Online (Sandbox Code Playgroud)

classification cluster-analysis mahout

Tur*_*cia

lucky-day

9
推荐指数

1
解决办法

146
查看次数

随机森林的简单解释

我试图了解随机森林如何用简单的英语而不是数学来运作.谁能给我一个关于这个算法如何工作的非常简单的解释？

据我所知,我们提供功能和标签,而不告诉算法哪个功能应归类为哪个标签？因为我曾经做过基于概率的朴素贝叶斯,我们需要告诉哪个特征应该是哪个标签.我完全离开了吗？

如果我能得到任何非常简单的解释,我将非常感激.

algorithm classification random-forest

toy*_*toy

2018 11-11

9
推荐指数

3
解决办法

6172
查看次数

重现Fisher线性判别图

许多书籍使用下图说明了Fisher线性判别分析的概念(这个特别来自模式识别和机器学习,第188页)

我想知道如何用R(或任何其他语言)重现这个数字.下面粘贴的是我在R中的初始努力.我模拟两组数据并使用abline()函数绘制线性判别式.欢迎任何建议.

set.seed(2014)
library(MASS)
library(DiscriMiner) # For scatter matrices

# Simulate bivariate normal distribution with 2 classes
mu1 <- c(2, -4)
mu2 <- c(2, 6)
rho <- 0.8
s1 <- 1
s2 <- 3
Sigma <- matrix(c(s1^2, rho * s1 * s2, rho * s1 * s2, s2^2), byrow = TRUE, nrow = 2)
n <- 50
X1 <- mvrnorm(n, mu = mu1, Sigma = Sigma)
X2 <- mvrnorm(n, mu = mu2, Sigma = Sigma)
y …

Run Code Online (Sandbox Code Playgroud)

statistics r classification machine-learning ggplot2

And*_*rej

2015 11-24

9
推荐指数

1
解决办法

1602
查看次数

scikit-learn(python)中的平衡随机森林

我想知道在scikit-learn软件包的最新版本中是否有平衡随机森林(BRF)的实现.BRF用于不平衡数据的情况.它可以作为普通RF工作,但是对于每次自举迭代,它通过欠采样来平衡普遍性类.例如,给定两个类N0 = 100,N1 = 30个实例,在每个随机抽样中,它从第一个类中抽取(替换)30个实例,从第二个类抽取相同数量的实例,即它在一个树上训练一个树.平衡数据集.有关更多信息,请参阅本文.

RandomForestClassifier()确实有'class_weight ='参数,可能设置为'balanced',但我不确定它是否与bootrapped训练样本的下采样有关.

classification random-forest scikit-learn

Arn*_*ein

lucky-day

9
推荐指数

2
解决办法

3361
查看次数

如何最好地处理图像分类中的"以上都不是"？

这似乎是一个基本问题,你们中的一些人必须有一个意见.我有一个在CNTK中实现的图像分类器,有48个类.如果图像与48个类中的任何一个都不匹配,那么我希望能够得出结论,它不属于这48种图像类型.我最初的想法很简单,如果最终的Softmax层的最高输出很低,我将能够得出结论,测试图像没有很好地匹配.虽然我偶尔会看到这种情况发生,但在大多数测试中,当传递"未知图像类型"时,Softmax仍然会产生非常高(和错误)的结果.但也许我的网络"过度适合",如果不是,我原来的想法会很好.你怎么看？有没有什么方法可以定义一个叫做'无上面'的第49类？

classification softmax cntk

Tul*_*ead

lucky-day

9
推荐指数

2
解决办法

1662
查看次数

损失和准确性 - 这些合理的学习曲线吗？

我正在学习神经网络,我在Keras中为UCI机器学习库中的虹膜数据集分类构建了一个简单的网络.我使用了一个带有8个隐藏节点的隐藏层网络.使用Adam优化器的学习率为0.0005,并且运行200个时期.Softmax用于输出,损失为catogorical-crossentropy.我得到以下学习曲线.

正如您所看到的,准确性的学习曲线有很多平坦的区域,我不明白为什么.错误似乎在不断减少,但准确性似乎并没有以同样的方式增加.精确度学习曲线中的平坦区域意味着什么？为什么即使错误似乎在减少,这些区域的准确度也不会增加？

这在培训中是正常的还是我更有可能在这里做错了什么？

dataframe = pd.read_csv("iris.csv", header=None)
dataset = dataframe.values
X = dataset[:,0:4].astype(float)
y = dataset[:,4]

scalar = StandardScaler()
X = scalar.fit_transform(X)

label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

encoder = OneHotEncoder()
y = encoder.fit_transform(y.reshape(-1,1)).toarray()

# create model
model = Sequential()
model.add(Dense(8, input_dim=4, activation='relu'))
model.add(Dense(3, activation='softmax'))

# Compile model
adam = optimizers.Adam(lr=0.0005, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0)
model.compile(loss='categorical_crossentropy',
              optimizer=adam, 
              metrics=['accuracy'])

# Fit the model
log = model.fit(X, y, epochs=200, batch_size=5, validation_split=0.2)

fig = plt.figure()
fig.suptitle("Adam, lr=0.0006, one hidden layer")

ax = fig.add_subplot(1,2,1) …

Run Code Online (Sandbox Code Playgroud)

classification machine-learning loss neural-network keras

ANA*_*N S

2017 12-16

9
推荐指数

1
解决办法

2916
查看次数