标签: feature-extraction

文本分类的特征选择与缩减

我目前正在开发一个项目,一个简单的情绪分析器,这样在不同的情况下会有2个和3个类.我正在使用一个非常丰富独特单词(大约200.000)的语料库.我用袋的词方法用于特征选择和以减少的数量独特特征,进行消除由于一个进行阈值出现频率.在最后一组的功能包括围绕20.000的功能,这实际上是一个90%的下降,但还不够用于测试预测的预期准确性.我正在使用LibSVMSVM-light进行训练和预测(线性RBF内核)以及PythonBash.

到目前为止观察到的最高精度约为75%,我至少需要90%.这是二进制分类的情况.对于多级培训,准确率降至约60%.在这两种情况下我都需要至少90%,并且无法计算如何增加它:通过优化训练参数通过优化特征选择

我读过有关文本分类中特征选择的文章,我发现使用了三种不同的方法,它们之间实际上有明显的相关性.这些方法如下:

  • 词袋的频率逼近(BOW)
  • 信息增益(IG)
  • X ^ 2统计(CHI)

第一种方法已经是我使用的方法,但我非常简单地使用它,需要指导以更好地使用它以获得足够高的准确度.我也缺乏IGCHI实际实施的知识,并寻求任何帮助以这种方式指导我.

非常感谢,如果您需要任何其他信息以获得帮助,请告诉我们.


  • @larsmans:频率阈值 …

nlp svm feature-extraction sentiment-analysis

49
推荐指数
2
解决办法
2万
查看次数

特征检测与描述符提取的区别

有谁知道OpenCV 2.3中FeatureDetection和DescriptorExtraction之间的区别?我知道后者是使用DescriptorMatcher进行匹配所必需的.如果是这种情况,FeatureDetection用于什么?

谢谢.

opencv image-processing feature-extraction computer-vision feature-detection

46
推荐指数
2
解决办法
3万
查看次数

使用OpenCV提取HoG功能

我正在尝试使用OpenCV的HoG API提取功能,但我似乎无法找到允许我这样做的API.

我想要做的是从我的所有数据集(一组正面和负面图像)中使用HoG提取特征,然后训练我自己的SVM.

我在OpenCV下偷看了HoG.cpp,但没有用.所有代码都埋没在复杂性中,需要满足不同的硬件需求(例如英特尔的IPP)

我的问题是:

  1. 我是否可以使用OpenCV中的任何API来提取所有要提供给SVM的功能/描述符?如果我可以用它来训练我自己的SVM?
  2. 如果没有,是否有任何现有的库,可以完成同样的事情?

到目前为止,我实际上是将一个现有的库(http://hogprocessing.altervista.org/)从Processing(Java)移植到C++,但它仍然非常慢,检测时间至少为16秒

有没有其他人成功提取HoG功能,你是如何解决它的?你有任何我可以使用的开源代码吗?

提前致谢

opencv feature-extraction computer-vision object-recognition feature-detection

38
推荐指数
1
解决办法
5万
查看次数

哪种OCR引擎更好:Tesseract或OCRopus?

我已经尝试过使用iPhone的Tesseract,并且在没有图像预处理的情况下评估其准确度为70%.我也注意到提取数字可能很差.我听说过OCRopus OCR引擎:哪个更好,Tesseract或OCRopus,就数字提取而言,如果我的图像预处理很低?
是否有人使用两种引擎运行测试,使用通常的指标比较结果?

ocr tesseract feature-extraction

31
推荐指数
1
解决办法
3万
查看次数

是否存在用于尺度不变特征提取的SURF和SIFT的快速替代方案?

SURF和SIFT一样获得专利.ORB和BRIEF没有获得专利,但它们的特征不是规模不变的,严重限制了它们在复杂场景中的实用性.

是否有任何特征提取器能够像SURF一样快速地提取尺度不变的特征,并且不像SURF和SIFT那样严格获得专利?

opencv feature-extraction computer-vision feature-detection

31
推荐指数
4
解决办法
3万
查看次数

用于音频的卷积神经网络(CNN)

我一直在关注DeepLearning.net上的教程,以学习如何实现从图像中提取特征的卷积神经网络.本教程有很好的解释,易于理解和遵循.

我想扩展相同的CNN,同时从视频(图像+音频)中提取多模态功能.

我知道视频输入只不过是与音频相关的一段时间(例如30 FPS)中显示的一系列图像(像素强度).但是,我真的不明白音频是什么,它是如何工作的,或者它是如何被分解为馈入网络的.

我已经阅读了几篇关于这个主题的论文(多模态特征提取/表示),但没有人解释过如何将音频输入到网络中.

此外,我从我的研究中了解到,多模态表征是我们的大脑真正运作的方式,因为我们没有刻意过滤我们的感官来实现理解.这一切都是在我们不知道的情况下同时发生的(联合代表).一个简单的例子是,如果我们听到狮子吼声,我们立即构成狮子的心理形象,感受到危险,反之亦然.在我们的大脑中发射了多种神经模式,以全面了解狮子的样子,听起来像,感觉,闻起来像是等等.

上面提到的是我的最终目标,但暂时我为了简单起见而打破了我的问题.

如果有人能够阐明音频如何被解剖,然后在卷积神经网络中表现出来,我将非常感激.我还要感谢您对多模态同步,联合表示以及使用多模态数据训练CNN的正确方法的看法.

编辑: 我发现音频可以表示为频谱图.它作为音频的通用格式,表示为具有两个几何尺寸的图形,其中水平线表示时间,垂直表示频率.

在此输入图像描述

是否可以对这些光谱图上的图像使用相同的技术?换句话说,我可以简单地使用这些频谱图作为卷积神经网络的输入图像吗?

convolution feature-extraction neural-network supervised-learning deep-learning

30
推荐指数
2
解决办法
2万
查看次数

OneHotEncoder对分类功能的问题

我想在我的数据集中的10个特征中编码3个分类特征.我用preprocessingsklearn.preprocessing如下面这样做:

from sklearn import preprocessing
cat_features = ['color', 'director_name', 'actor_2_name']
enc = preprocessing.OneHotEncoder(categorical_features=cat_features)
enc.fit(dataset.values)
Run Code Online (Sandbox Code Playgroud)

但是,我无法继续,因为我收到此错误:

    array = np.array(array, dtype=dtype, order=order, copy=copy)
ValueError: could not convert string to float: PG
Run Code Online (Sandbox Code Playgroud)

我很惊讶为什么它抱怨字符串,因为它应该转换它!我在这里错过了什么吗?

feature-extraction scikit-learn categorical-data

28
推荐指数
4
解决办法
3万
查看次数

线性回归::标准化(Vs)标准化

我使用线性回归来预测数据.但是,当我标准化(Vs)标准化变量时,我得到完全对比的结果.

标准化= x -xmin/xmax - xmin零分标准化= x - xmean/xstd  

a) Also, when to Normalize (Vs) Standardize ?
b) How Normalization affects Linear Regression?
c) Is it okay if I don't normalize all the attributes/lables in the linear regression?
Run Code Online (Sandbox Code Playgroud)

谢谢,桑托什

machine-learning feature-extraction linear-regression

27
推荐指数
3
解决办法
3万
查看次数

什么是图像处理(算法或描述)中的特征描述符?

我常常在图像特征的上下文中混淆术语描述符的含义.描述符是点的局部邻域的描述(例如浮点向量),还是描述输出描述的算法?那么,功能提取器的输出究竟是什么呢?

我一直在问这个问题很长一段时间,而我提出的唯一解释是描述符是算法和描述.特征检测器用于检测特征点.然而,功能提取器似乎没有任何意义.

请帮我澄清这个误解.谢谢!

image-processing feature-extraction computer-vision feature-detection

23
推荐指数
1
解决办法
2万
查看次数

DMatches中的距离属性是什么意思?

我有一个简短的问题:当我在做的OpenCV功能匹配,什么是distance属性意味着DMatchesMatOfMatches

我知道我必须过滤较大距离的比赛,因为它们不如距离较远的那样好.但这个属性的含义是什么?这是一种偏差吗?

opencv feature-extraction feature-detection

20
推荐指数
3
解决办法
1万
查看次数