什么是使用单词本身作为任何机器学习算法中的功能的最佳方法?
我必须从特定段落中提取单词相关功能的问题.我应该使用字典中的索引作为数字特征吗?如果是这样,我将如何规范这些?
一般来说,单词本身如何在NLP中用作特征?
我想区分数据向量以找到相似的数据向量.例如:
A=[4,5,6,7,8];
B=[4,5,6,6,8];
C=[4,5,6,7,7];
D=[1,2,3,9,9];
E=[1,2,3,9,8];
Run Code Online (Sandbox Code Playgroud)
在前面的例子中,我想区分A,B,C向量彼此相似(不相同),D,E彼此相似.结果应该类似于:A,B,C相似且D,E相似,但A,B,C组与D,E组不相似.Matlab可以做到这一点吗?我正在考虑使用一些分类算法或Kmeans,ROC等.但我不确定哪一个是最好的.
有什么建议吗?提前致谢
我成功地使用了Haar分类器和OpenCV.不幸的是,它似乎只适用于方形物体和固定角度(即面部).但是我需要找到具有不同角度的"长"(矩形)物体(参见样本输入图像).
有没有办法训练哈尔分类器找到这样的对象?我能找到的只是面部识别的教程.还有其他替代方法吗?

opencv classification image-processing image-recognition pattern-matching
我使用Weka进行数据探索并决定哪种分类算法最适合我的问题,我取得了很大的成功.既然我有一个有效的训练模型,我想将它集成到我的C++程序的其余部分.不幸的是,这似乎是一项艰巨的任务:只有Weka本身支持将分类器导出为Java对象文件.有没有人找到一种方法以有用的格式导出Weka训练的模型参数?
如果有一个实用程序从J48决策树生成C/C++代码,我会特别感兴趣.
在一个项目中,有一个模块采用URL并确定它是"电子商务"还是"非电子商务"网站.
我尝试了以下方法:
使用Apache mahout,分类:URL --->采取html转储--->预处理html转储a)删除所有html标签
b)删除停止词(也称为常用词),如CDATA,href,value和,等等.
c)训练模型然后测试它.
在我用于训练的params之后
bin/mahout trainclassifier\-i training-data\-o bayes-model \> -type bayes -ng 1
测试:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
Run Code Online (Sandbox Code Playgroud)
准确度我得到73%,cbayes算法得到52%.
我想通过提取电子商务网站中的信息来改善预处理阶段,如"结帐按钮","付费朋友链接","价格/美元符号","货到付款","30天保证"等文本.
有关如何提取此信息或任何其他方式将网站预测为电子商务或非电子商务的建议吗?
如何将少数弱学习者组合成一个强大的分类器?我知道这个公式,但问题是,在我读过的每篇关于AdaBoost的论文中,只有没有任何例子的公式.我的意思是 - 我的学习者和他们的体重很弱,所以我可以做公式告诉我做的事情(将学习者的体重乘以另一个乘以体重和另一个等等),但我究竟是怎么做到的?我的弱学习者是决策树桩.他们有属性和门槛,那么我会乘以什么呢?
artificial-intelligence classification machine-learning decision-tree adaboost
有谁知道好的开源文本分类模型?我知道斯坦福分类器,Weka,Mallet等,但所有这些都需要培训.
我需要将新闻文章分类为体育/政治/健康/游戏/等.那里有训练有素的模特吗?
Alchemy,OpenCalais等不是选项.我需要开源工具(最好是Java).
java classification machine-learning categorization document-classification
我在mac os x 10.7.5上使用通过macports安装的opencv 2.4.4和python 2.7.5.
我想训练一个级联来寻找男性正面.但是我收到了terminate called throwing an exceptionAbort trap: 6错误.我要求SO社区帮我弄清楚可能出现的问题.
负面(背景)图片来自谷歌:googleImages_noFaces(293张图片)
正面图像来自Karolinska数据库:trainingSet(70图像)
我创建了一个文本文件,指示背景图像的相对位置:bgDesc.txt
我还创建了一个文本文件,指示相对位置,图像中正实例的数量(始终为1)和对象的边界区域(整个图像):maleDesc.txt
所有这些文件都可以从这里下载.
文件的组织采用以下形式:
/trainingSet
image1.jpg
image2.jpg
.
.
.
/googleImages_noFaces
image1.jpg
image2.jpg
.
.
.
/cascadeFiles
maleDesc.txt
bgDesc.txt
Run Code Online (Sandbox Code Playgroud)
当我使用opencv_createsamples时,使用maleDesc.vec以下行成功创建了一个文件:
opencv_createsamples -vec maleDesc.vec -info maleDesc.txt -bg bgDesc.txt -num 70 -w 24 -h 24
Run Code Online (Sandbox Code Playgroud)
如果我使用-show参数我可以看到创建了24x24像素图像.
然后我试试
opencv_traincascade -data cascadeFiles -vec maleDesc.vec -bg bgDesc.txt -numPos 70 - numNeg 293 -numStages 1 -precalcValBufSize 500 -precalcIdxBufSize 500 -featureType LBP -w 24 …Run Code Online (Sandbox Code Playgroud) python opencv classification image-processing image-recognition
如何使用wordnet的类别(java作为接口)来使用wordnet标记文本?
例
考虑句子:
1)计算机需要键盘,监视器,CPU才能工作.
2)汽车使用齿轮和离合器.
现在我的目标是,必须将例句标记为
电脑/电子
键盘/电子
CPU /电子
汽车/机械
齿轮/机械
离合器/机械
"使用微芯片监控离合器和齿轮" - >离合器/机械,齿轮/机械,微芯片/电子
"此处用于监测氢气水平的软件" - >软件/计算机,氢/化学..
我想在java上实现上面提到的目标,即通过技术,机械,电气等相关类别来标记名词.
如何使用wordnet执行此操作.
我以前的作品
为了实现我的目标,我在每个类别的文本文件中创建了一个术语索引,并将其与标题相匹配..如果它在文本文件中包含一个单词,则标题将被分类.
例如
Automobile.txt有 car , gear , wheel , clutch.
networking.txt有server,IP Address,TCP , RIP
这是算法:
String Classify (String title)
{
String area;
if (compareWordsFrom ("Automobile.txt",title) == true ) area = "Auto";
if (compareWordsFrom ("Netoworking.txt",title) == true ) area = "Networking";
if (compareWordsFrom ("metels.txt",title) == true ) area = "Metallurgy";
return area; …Run Code Online (Sandbox Code Playgroud) 我使用R来分类一个名为'd'的数据框,其中包含如下结构的数据:

数据有576666行,"classLabel"列有3个等级:ONE,TWO,THREE.
我正在使用rpart制作决策树:
fitTree = rpart(d$classLabel ~ d$tripduration + d$from_station_id + d$gender + d$birthday)
Run Code Online (Sandbox Code Playgroud)
我想预测"classLabel"的值newdata:
newdata = data.frame( tripduration=c(345,244,543,311),
from_station_id=c(60,28,100,56),
gender=c("Male","Female","Male","Male"),
birthday=c(1972,1955,1964,1967) )
p <- predict(fitTree, newdata)
Run Code Online (Sandbox Code Playgroud)
我希望我的结果是一个4行的矩阵,每个行的概率为"classLabel"的三个可能值newdata.但是我得到的结果是p,是一个576666行的数据帧,如下所示:

运行该predict函数时,我也收到以下警告:
Warning message:
'newdata' had 4 rows but variables found have 576666 rows
Run Code Online (Sandbox Code Playgroud)
我哪里做错了?!