我想在这里找一些专家指导,了解解决问题的最佳方法.我研究了一些机器学习,神经网络和类似的东西.我调查了weka,某种贝叶斯解决方案...... R ..几个不同的东西.不过,我不知道该怎么做.这是我的问题.
我已经或将要有大量的活动......最终大约有10万左右.每个事件由几个(30-50)个自变量和我关心的1个因变量组成.在确定因变量的值时,一些自变量比其他变量更重要.而且,这些事件与时间有关.今天发生的事情比10年前发生的事情更重要.
我希望能够为某种学习引擎提供一个事件,并让它预测因变量.然后,知道这个事件的因变量的真实答案(以及之前出现的所有事件),我希望能够训练后续的猜测.
一旦我了解了编程方向,我就可以进行研究并弄清楚如何将我的想法转化为代码.但我的背景是并行编程而不是这样的东西,所以我很乐意就此提出一些建议和指导.
谢谢!
编辑:这里有一些关于我试图解决的问题的更多细节:这是一个定价问题.让我们说我想要预测随机漫画书的价格.价格是我唯一关心的事情.但是有很多独立的变量可以提出来.它是超人漫画,还是Hello Kitty漫画.多大了?条件是什么?经过一段时间的训练后,我希望能够提供有关我可能正在考虑的漫画书的信息,并让它为漫画书给我一个合理的预期价值.好.所以漫画书可能是一个虚假的例子.但是你得到了一般的想法.到目前为止,从答案中,我正在对支持向量机和Naive Bayes进行一些研究.感谢您迄今为止的所有帮助.
modeling regression classification machine-learning neural-network
我正在研究数据的二进制分类,我想知道使用支持向量机优于决策树和自适应Boosting算法的优缺点.
好吧,我见过的几乎所有使用HoG功能的应用程序都使用线性svm作为分类器.有人可以解释为什么选择线性svm以及为什么它们会有良好的性能?
选择线性svm是因为它比使用多项式或高斯内核的svms更简单,更容易训练并且使用这些内核并没有提供明显更好的性能吗?
classification machine-learning object-detection computer-vision
我在原始文本中有大量的意见(2500).我想使用scikit-learn库将它们分成测试/训练集.用scikit-learn解决这个任务可能是最好的方法吗?任何人都可以给我一个在测试/训练集中拆分原始文本的例子(可能我会使用tf-idf表示).
classification machine-learning scikit-learn cross-validation text-classification
我正在尝试使用Mahout对用户进行聚类和分类.目前我处于规划阶段,我的想法与想法完全混合,因为我对这个领域相对较新,所以我坚持数据格式化.
假设我们有两个数据表(足够大).在第一个表中有用户及其操作.每个用户至少有一个动作,他们也可以有太多的动作.表中有大约10000个不同的user_actions和数百万条记录.
user - user_action
u1 - a
u2 - b
u3 - a
u1 - c
u2 - c
u2 - c
u1 - b
u4 - f
u4 - e
u1 - e
u1 - d
u5 - d
Run Code Online (Sandbox Code Playgroud)
在另一个表中,有行动类别.每个动作可能没有或多个类别.共有60个类别.
user_action - category
a - cat1
b - cat2
c - cat1
d - NULL
e - cat1, cat3
f - cat4
Run Code Online (Sandbox Code Playgroud)
我将尝试使用Mahout构建用户分类模型,但我不知道应该做什么.我应该创建什么类型的用户向量?或者我真的需要用户向量吗?
我想我需要创造类似的东西;
u1 (a, c, b, e, d)
u2 (b, c, c)
u3 …Run Code Online (Sandbox Code Playgroud) 我试图了解随机森林如何用简单的英语而不是数学来运作.谁能给我一个关于这个算法如何工作的非常简单的解释?
据我所知,我们提供功能和标签,而不告诉算法哪个功能应归类为哪个标签?因为我曾经做过基于概率的朴素贝叶斯,我们需要告诉哪个特征应该是哪个标签.我完全离开了吗?
如果我能得到任何非常简单的解释,我将非常感激.
许多书籍使用下图说明了Fisher线性判别分析的概念(这个特别来自模式识别和机器学习,第188页)
我想知道如何用R(或任何其他语言)重现这个数字.下面粘贴的是我在R中的初始努力.我模拟两组数据并使用abline()函数绘制线性判别式.欢迎任何建议.
set.seed(2014)
library(MASS)
library(DiscriMiner) # For scatter matrices
# Simulate bivariate normal distribution with 2 classes
mu1 <- c(2, -4)
mu2 <- c(2, 6)
rho <- 0.8
s1 <- 1
s2 <- 3
Sigma <- matrix(c(s1^2, rho * s1 * s2, rho * s1 * s2, s2^2), byrow = TRUE, nrow = 2)
n <- 50
X1 <- mvrnorm(n, mu = mu1, Sigma = Sigma)
X2 <- mvrnorm(n, mu = mu2, Sigma = Sigma)
y …Run Code Online (Sandbox Code Playgroud) 我想知道在scikit-learn软件包的最新版本中是否有平衡随机森林(BRF)的实现.BRF用于不平衡数据的情况.它可以作为普通RF工作,但是对于每次自举迭代,它通过欠采样来平衡普遍性类.例如,给定两个类N0 = 100,N1 = 30个实例,在每个随机抽样中,它从第一个类中抽取(替换)30个实例,从第二个类抽取相同数量的实例,即它在一个树上训练一个树.平衡数据集.有关更多信息,请参阅本文.
RandomForestClassifier()确实有'class_weight ='参数,可能设置为'balanced',但我不确定它是否与bootrapped训练样本的下采样有关.
这似乎是一个基本问题,你们中的一些人必须有一个意见.我有一个在CNTK中实现的图像分类器,有48个类.如果图像与48个类中的任何一个都不匹配,那么我希望能够得出结论,它不属于这48种图像类型.我最初的想法很简单,如果最终的Softmax层的最高输出很低,我将能够得出结论,测试图像没有很好地匹配.虽然我偶尔会看到这种情况发生,但在大多数测试中,当传递"未知图像类型"时,Softmax仍然会产生非常高(和错误)的结果.但也许我的网络"过度适合",如果不是,我原来的想法会很好.你怎么看?有没有什么方法可以定义一个叫做'无上面'的第49类?
我正在学习神经网络,我在Keras中为UCI机器学习库中的虹膜数据集分类构建了一个简单的网络.我使用了一个带有8个隐藏节点的隐藏层网络.使用Adam优化器的学习率为0.0005,并且运行200个时期.Softmax用于输出,损失为catogorical-crossentropy.我得到以下学习曲线.
正如您所看到的,准确性的学习曲线有很多平坦的区域,我不明白为什么.错误似乎在不断减少,但准确性似乎并没有以同样的方式增加.精确度学习曲线中的平坦区域意味着什么?为什么即使错误似乎在减少,这些区域的准确度也不会增加?
这在培训中是正常的还是我更有可能在这里做错了什么?
dataframe = pd.read_csv("iris.csv", header=None)
dataset = dataframe.values
X = dataset[:,0:4].astype(float)
y = dataset[:,4]
scalar = StandardScaler()
X = scalar.fit_transform(X)
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)
encoder = OneHotEncoder()
y = encoder.fit_transform(y.reshape(-1,1)).toarray()
# create model
model = Sequential()
model.add(Dense(8, input_dim=4, activation='relu'))
model.add(Dense(3, activation='softmax'))
# Compile model
adam = optimizers.Adam(lr=0.0005, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0)
model.compile(loss='categorical_crossentropy',
optimizer=adam,
metrics=['accuracy'])
# Fit the model
log = model.fit(X, y, epochs=200, batch_size=5, validation_split=0.2)
fig = plt.figure()
fig.suptitle("Adam, lr=0.0006, one hidden layer")
ax = fig.add_subplot(1,2,1) …Run Code Online (Sandbox Code Playgroud) classification ×10
scikit-learn ×2
adaboost ×1
algorithm ×1
cntk ×1
ggplot2 ×1
keras ×1
loss ×1
mahout ×1
modeling ×1
r ×1
regression ×1
softmax ×1
statistics ×1
svm ×1