在weka中我加载了一个arff文件.我可以使用visualize选项卡查看属性之间的关系.
但是我无法理解抖动滑块的含义.它的目的是什么?
我有一个数据集,在底层文本上有多层注释,例如部分标签,来自浅层解析器的块,名称实体以及来自各种 自然语言处理(NLP)工具的其他部分.对于像这样的句子The man went to the store,注释可能如下所示:
Word POS Chunk NER ==== === ===== ======== The DT NP Person man NN NP Person went VBD VP - to TO PP - the DT NP Location store NN NP Location
我想使用Lucene索引一堆带有这些注释的文档,然后在不同的层上执行搜索.简单查询的一个示例是检索华盛顿被标记为人的所有文档.虽然我并不是完全致力于表示法,但语法上的最终用户可能会按如下方式输入查询:
查询:Word=Washington,NER=Person
我还想做更复杂的查询,涉及跨不同层的注释的连续顺序,例如,找到所有文档,其中有一个单词标记的人,后面arrived at是单词标记位置的单词.这样的查询可能如下所示:
查询:"NER=Person Word=arrived Word=at NER=Location"
用Lucene来解决这个问题的好方法是什么?无论如何索引和搜索包含结构化令牌的文档字段?
有效载荷
一个建议是尝试使用Lucene 有效负载.但是,我认为有效载荷只能用于调整文档的排名,并且它们不用于选择返回的文档.
后者很重要,因为对于某些用例,包含模式 …
任何人都能解释一下WEKA中K-Means聚类的输出实际意味着什么.
例如
kMeans
Number of iterations: 9
Within cluster sum of squared errors: 9434.911100488926
Missing values globally replaced with mean/mode
Cluster centroids:
Cluster#
Attribute Full Data 0 1
(400) (310) (90)
=================================================
competency134 0.0425 0.0548 0
competency207 0.0425 0.0548 0
competency263 0.01 0.0129 0
competency264 0.01 0.0129 0
competency282 0.01 0.0129 0
competency289 0.01 0.0129 0
Run Code Online (Sandbox Code Playgroud)
列中的数字实际意味着什么,它表示表格上方的聚类质心,但是如何确定两个聚类的质心是什么?
如果有人能解释这些数字意味着什么,我将非常感激.
如果有人有任何想法如何完成对所发现的聚类的轮廓评估,这也将是很好的.
谢谢
是否有像Mahout这样的.net库.你可以推荐什么机器学习?
Python提供的NLTK库是一个庞大的文本和语料库资源,以及大量的文本挖掘和处理方法.有没有什么方法可以根据它们为可能的匹配传达的含义来比较句子?那就是一个聪明的句子匹配器?
例如,像giggling at bad jokes和的句子I like to laugh myself silly at poor jokes.两者都传达了相同的含义,但句子不能远程匹配(单词不同,Levenstein Distance会严重失败!).
现在假设我们有一个API,它公开了这里的功能.因此,基于此,我们有机制找出这个词giggle,laugh并在它们传达的意义上匹配.Bad不会匹配poor,所以我们可能需要添加更多的图层(就像它们在单词的上下文中匹配一样joke,因为它们bad joke通常是相同的poor joke,尽管bad person不一样poor person!).
一个主要的挑战是丢弃那些不会改变句子含义的东西.因此,算法应返回第一个句子与此之间相同程度的匹配度:I like to laugh myself silly at poor jokes, even though they are completely senseless, full of crap and serious chances of heart-attack!
那么有了这个,有没有这样的算法已被构思出来了?或者我必须发明轮子?
像这样的矢量
v1 = {0 0 0 1 1 0 0 1 0 1 1}
v2 = {0 1 1 1 1 1 0 1 0 1 0}
v3 = {0 0 0 0 0 0 0 0 0 0 1}
Run Code Online (Sandbox Code Playgroud)
需要计算它们之间的相似性.海明之间的距离v1和v24之间,v1并且v3也是4.但因为我感兴趣的是"1",这是一起针对我的组v2是更为相似,v1那么v3是.
是否有可以在数据中捕获此值的距离指标?
数据代表房屋的占用情况,这就是为什么它对我来说很重要.'1'表示占用,'0'表示未占用.
我试图在我的数据集中获得N = ~1300个图像的特征向量,我必须实现的一个特征是形状.所以我计划使用SIFT描述符.但是,每个图像返回不同数量的关键点,所以我运行
[F,D] = vl_sift(image);
Run Code Online (Sandbox Code Playgroud)
F的大小4 x N和D的大小128 x N,其中N是检测到的关键点的数量.
但是,我想获得一个128 x 1可以尽可能好地表示图像的单个矢量大小.我已经看过像聚类和k-means这样的东西,但我不知道怎么做.
最基本的想法是获得大小为128x1的这N个向量的平均值,然后我有一个特征向量.但取平均值有意义吗?我应该做某种直方图吗?
任何帮助将不胜感激.谢谢 !
我在这里看到了一些机器学习问题所以我想我会发布一个相关的问题:
假设我有一个数据集,运动员参加10公里和20公里的丘陵比赛的比赛,即每场比赛都有自己的困难.
用户的完成时间几乎与每次比赛的正常分布相反.
可以将此问题写为矩阵:
Comp1 Comp2 Comp3
User1 20min ?? 10min
User2 25min 20min 12min
User3 30min 25min ??
User4 30min ?? ??
Run Code Online (Sandbox Code Playgroud)
我想完成上面的矩阵,其大小为1000x20,稀疏度为8%(!).
应该有一种非常简单的方法来完成这个矩阵,因为我可以计算每个用户(能力)的参数和每个竞争的参数(mu,lambda of distribution).此外,比赛之间的相关性非常高.
我可以利用排名User1 <User2 <User3和Item3 << Item2 <Item1
你能不能给我一个暗示我可以使用的方法?
我正在研究数据挖掘项目,我想收集历史天气数据.我可以通过他们在http://www.ncdc.noaa.gov/cdo-web/search上提供的网络界面获取历史数据.但我想通过API以编程方式访问此数据.从我在StackOverflow上阅读的内容来看,这些数据应该是公共领域,但我能找到它的唯一地方就是像Wunderground这样的非免费服务.如何免费访问这些数据?
有人可以向我解释最著名的数据挖掘开源工具的主要利弊吗?
我到处都读到RapidMiner,Weka,Orange,KNIME是最好的。 看这篇博客文章
有人可以在一个小的项目符号列表中进行快速的技术比较。
我的需求如下:
谢谢!
data-mining ×10
java ×3
weka ×3
algorithm ×1
arff ×1
c# ×1
comparison ×1
k-means ×1
lucene ×1
matlab ×1
nlp ×1
nltk ×1
python ×1
rapidminer ×1
sift ×1
similarity ×1
text-mining ×1
vector ×1
vlfeat ×1
weather-api ×1
web-scraping ×1