标签: classification

K最近邻算法

也许我相当愚蠢,但我找不到令人满意的答案:使用KNN算法,比如k = 5.现在我尝试通过获取其最近的5个邻居来对未知对象进行分类.该怎么做,如果在确定4个最近邻居后,接下来的2个(或更多)最近的物体具有相同的距离?应该选择这两个或更多的哪个对象作为第五个最近邻居?

提前致谢 :)

algorithm classification knn

19
推荐指数
3
解决办法
6862
查看次数

首先是PCA还是标准化?

在进行回归或分类时,预处理数据的正确(或更好)方法是什么?

  1. 规范化数据 - > PCA - >培训
  2. PCA - >标准化PCA输出 - >训练
  3. 规范化数据 - > PCA - >规范化PCA输出 - >训练

以上哪一项更正确,还是预处理数据的"标准化"方式?"标准化"是指标准化,线性缩放或其他一些技术.

regression classification machine-learning normalization pca

19
推荐指数
2
解决办法
2万
查看次数

What is weakly supervised learning (bootstrapping)?

I understand the differences between supervised and unsupervised learning:

Supervised Learning is a way of "teaching" the classifier, using labeled data.

Unsupervised Learning lets the classifier "learn by itself", for example, using clustering.

But what is "weakly supervised learning"? How does it classify it's examples?

classification machine-learning

19
推荐指数
3
解决办法
2万
查看次数

用于垃圾邮件检测的神经网络

假设您可以访问一个电子邮件帐户,其中包含过去几年收到的电子邮件的历史记录(~10k封电子邮件),分为2组

  • 真正的邮箱
  • 垃圾邮件

您将如何处理创建可用于垃圾邮件检测的神经网络解决方案的任务 - 基本上将任何电子邮件分类为垃圾邮件或非垃圾邮件?

我们假设电子邮件提取已经到位,我们只需要关注分类部分.

我希望得到回答的要点是:

  1. 选择哪个参数作为NN的输入,为什么?
  2. NN的哪种结构最有可能最适合这样的任务?

此外,任何资源建议或现有实现(最好是在C#中)都非常受欢迎

谢谢

编辑

  • 我开始使用神经网络,因为该项目的主要方面是测试NN方法如何用于垃圾邮件检测
  • 此外,仅仅是探索神经网络和垃圾邮件的主题是一个"玩具问题"

classification machine-learning spam-prevention neural-network

18
推荐指数
2
解决办法
1万
查看次数

使用人工智能(AI)来预测股票价格

给出一组非常类似于Motley Fool CAPS系统的数据,其中个人用户输入各种股票的买入和卖出建议.我想这样做是显示每个建议,我想一些如何率(1-5)是否是很好的预测<5>(即相关系数= 1)未来股价(或EPS或其他)的或者是一个可怕的预测者(即相关系数= -1)或介于两者之间的某个地方.

每个推荐都标记给特定用户,以便可以随时跟踪.我还可以根据sp500价格等因素跟踪市场方向(看涨/看跌).我认为在模型中有意义的组件将是:

user
direction (long/short)
market direction
sector of stock
Run Code Online (Sandbox Code Playgroud)

我们的想法是,一些用户在牛市中比熊市更好(反之亦然),有些用户在空头方面比在多头方面更好 - 然后是上述组合.我可以自动标记市场方向和行业(基于当时的市场和推荐的股权).

我的想法是,我可以提供一系列屏幕,并允许我通过显示特定时间段内的可用数据绝对值,市场和扇区输出性能来对每个单独的推荐进行排名.我会按照详细的清单对股票进行排名,以便排名尽可能客观.我的假设是单个用户的权利不超过57% - 但谁知道.

我可以加载系统并说"让我们将推荐排名为90天前的股票价值预测"; 这将代表一组非常明确的排名.

现在这里是关键 - 我想创建某种机器学习算法,可以在一系列时间内识别模式,以便当推荐流入应用程序时,我们保持该库存的排名(即类似于相关系数).该建议的可能性(除了过去的一系列建议)将影响价格.

现在这里是超级难题.我从未参加过AI课程/阅读AI书籍/从不介意机器学习.所以我想寻找指导 - 我可以适应的类似系统的样本或描述.寻找信息或任何一般帮助的地方.或者甚至推动我朝着正确的方向开始......

我的希望是与F#来实现这一点,并能够给我的朋友有一个新的技能在F#设置与机器学习的实现和潜在的东西(应用程序/源)我可以包括在高科技投资组合或博客空间留下深刻的印象;

提前感谢您的任何建议.

f# finance artificial-intelligence classification machine-learning

18
推荐指数
3
解决办法
1万
查看次数

如何用c#实现决策树(visual studio 2008) - 帮助

我有一个决策树,我需要转向C#中的代码

这样做的简单方法是使用if-else语句,但在此解决方案中,我需要创建4-5个嵌套条件.

我正在寻找一种更好的方法来做到这一点,到目前为止我读了一些关于规则引擎的内容.

您是否有其他建议以有效的方式开发具有4-5个嵌套条件的决策树?

.net c# classification decision-tree

18
推荐指数
1
解决办法
2万
查看次数

多层神经网络不会预测负值

我已经实现了多层感知器来预测输入向量的罪.向量由随机选择的四个-1,0,1和偏置设置为1组成.网络应该预测向量内容之和的sin.

例如,输入= <0,1,-1,0,1>输出= Sin(0 + 1 +( - 1)+ 0 + 1)

我遇到的问题是网络永远不会预测负值,并且许多向量的sin值都是负数.它完美地预测所有正或零输出.我假设更新权重存在问题,在每个纪元后更新.以前有没有人遇到过NN的这个问题?任何帮助都会很棒!!

注意:网络有5个输入,6个隐藏单元,1个隐藏层和1个输出.我在激活隐藏和输出层使用sigmoid函数,并尝试了吨学习率(目前为0.1);

perl classification backpropagation neural-network

18
推荐指数
1
解决办法
4317
查看次数

GBM R函数:为每个类分别获取变量重要性

我在R(gbm包)中使用gbm函数来拟合用于多类分类的随机梯度增强模型.我只是试图分别为每个班级获得每个预测因子的重要性,就像哈斯蒂(Hastie)书(统计学习要素)(第382页)中的这张图片一样.

在此输入图像描述

但是,该函数summary.gbm仅返回预测变量的总体重要性(它们对所有类的平均重要性).

有谁知道如何获得相对重要性值?

r classification machine-learning data-mining gbm

18
推荐指数
2
解决办法
1万
查看次数

如何从示例队列中将数据读入TensorFlow批处理?

如何将TensorFlow示例队列分成适当的批次进行培训?

我有一些图像和标签:

IMG_6642.JPG 1
IMG_6643.JPG 2
Run Code Online (Sandbox Code Playgroud)

(随意建议另一种标签格式;我想我可能需要另一个密集到稀疏的步骤......)

我已经阅读了不少教程,但还没有完全掌握.这就是我所拥有的,其中的注释表明了TensorFlow的阅读数据页面所需的步骤.

  1. 文件名列表(为简单起见,删除了可选步骤)
  2. 文件名队列
  3. 用于文件格式的Reader
  4. 用于读取器读取的记录的解码器
  5. 示例队列

在示例队列之后,我需要将此队列分批进行培训; 那就是我被困的地方......

1.文件名列表

files = tf.train.match_filenames_once('*.JPG')

4.文件名队列

filename_queue = tf.train.string_input_producer(files, num_epochs=None, shuffle=True, seed=None, shared_name=None, name=None)

读者

reader = tf.TextLineReader() key, value = reader.read(filename_queue)

6.解码器

record_defaults = [[""], [1]] col1, col2 = tf.decode_csv(value, record_defaults=record_defaults) (我认为我不需要下面的这一步,因为我已经将我的标签放在一个张量中,但我仍然包含它)

features = tf.pack([col2])

文档页面有一个运行一个图像的示例,而不是将图像和标签分成批次:

for i in range(1200): # Retrieve a single instance: example, label = sess.run([features, col5])

然后它下面有一个批处理部分:

def read_my_file_format(filename_queue):
  reader = tf.SomeReader()
  key, record_string = reader.read(filename_queue)
  example, label = …
Run Code Online (Sandbox Code Playgroud)

python numpy classification tensorflow

18
推荐指数
1
解决办法
3万
查看次数

Keras分类 - 物体检测

我正在使用Keras和Python进行分类然后对象检测.我已经对猫/狗进行了80%以上的准确度分类,我现在的结果还不错.我的问题是如何从输入图像中检测猫或狗?我完全糊涂了.我想使用自己的高度,而不是来自互联网的预训练.

这是我目前的代码:

from keras.preprocessing.image import ImageDataGenerator
from keras.models import Sequential
from keras.layers import Convolution2D, MaxPooling2D
from keras.layers import Activation, Dropout, Flatten, Dense
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

from keras.preprocessing.image import ImageDataGenerator, array_to_img, img_to_array, load_img

#########################################################################################################
#VALUES
# dimensions of our images.
img_width, img_height = 150, 150

train_data_dir = 'data/train'
validation_data_dir = 'data/validation'
nb_train_samples = 2000 #1000 cats/dogs
nb_validation_samples = 800 #400cats/dogs
nb_epoch = 50
#########################################################################################################

#MODEL
model = Sequential()
model.add(Convolution2D(32, 3, 3, input_shape=(3, img_width, img_height))) …
Run Code Online (Sandbox Code Playgroud)

python classification object-detection keras

18
推荐指数
1
解决办法
1万
查看次数