我有一个大型数据库的简历(CV),并有一定的表的技巧把所有用户的技能.
在该表中,有一个字段skill_text,用于描述全文技能.
我正在寻找一种算法/软件/方法来从该表中提取重要的术语/短语,以便构建一个具有标准化技能的新表.
以下是从DB中提取的一些示例技能:
输出应该是这样的:
如你所见,只有技能仍然没有其他表示文字.
我知道这可以使用文本挖掘技术,但如何做到这一点?数据库真的很大..这是一件好事,因为我们可以计算文本频率并决定它是真正的技能还是只是无意义的文本......最大的问题是......如何确定"blablabla"是一种技能?
编辑:请不要告诉我使用标准的东西,如文本tokinzer,或正则表达式..因为用户以非常随意的方式输入技能!!
谢谢
我最近和我的主管在我的一个电子邮件沟通中找到了一个学期.因为我正在facebook用户档案上做一个数据挖掘项目,他说我应该收集实际数据.
我对这个术语很新,我在网上搜索它,但在数据挖掘意义上发现很少有关于它的结果.
任何人都可以举例说明这个数据采集任务中的数据真实性数据吗?
非常感谢你.
我在外汇市场上有一个交易策略,我试图改进.
我有一个巨大的表(100k +行)代表市场上的每一个可能的交易,交易的类型(买入或卖出),交易结束后的盈利/亏损,以及代表各种市场测量的10个左右的额外变量.贸易开放时间.
我试图找出这10个变量中的任何一个是否与利润/损失显着相关.
例如,假设变量X的范围是50到-50.买单的X平均值为25,卖单的平均值为-25.
如果大多数有利可图的买单具有X> 25的值,并且大多数有利可图的卖单具有X <-25的值,那么我会认为X与利润的关系是显着的.
我想要一个很好的起点.我已安装RapidMiner 5以防万一有人可以给我一个具体的建议.
如果我的数据集中的一列只有3个可能的值.ie 0,1和2,如果我将它们声明为标称v/s数值,那么WEKA对它们有何不同?
此外,如果我有一个列属性的大量名义值,是否有一种简单的方法来声明这个具有非常高的序数值的名义属性?
我试图在下面的data-set上实现K-means算法.它是stragiht-forward来计算任何两个数字属性之间的距离,但是我如何计算两个字符串之间的距离以及如何总结所有距离(即字符串属性之间的距离和数字属性之间的距离.)请告诉我.谢谢.
我正在尝试使用Topsy Otter api获取推文,因此我可以为我的论文执行一些数据挖掘.
到目前为止,我有:
library(RJSONIO)
library(RCurl)
tweet_data <- getURL("http://otter.topsy.com/search.json?q=PSN&mintime=1301634000&perpage=10&maxtime=1304226000&apikey=xxx")
fromJSON(tweet_data)
Run Code Online (Sandbox Code Playgroud)
哪个工作正常.但是,现在我想从这个文件中返回一些细节,'content'和'trackback_date'.我似乎无法弄清楚如何 - 我曾尝试将几个例子拼凑在一起,但无法提取我想要的东西.
这是我到目前为止所尝试的:
trackback_date <- lapply(tweet_data$result, function(x){x$trackback_date})
content <- lapply(tweet_data$result, function(x){x$content})
Run Code Online (Sandbox Code Playgroud)
非常感谢任何帮助,谢谢.
编辑 我也尝试过:
library("rjson")
# use rjson
tweet_data <- fromJSON(paste(readLines("http://otter.topsy.com/search.json?q=PSN&mintime=1301634000&perpage=10&maxtime=1304226000&apikey=xxx"), collapse=""))
# get a data from Topsy Otter API
# convert JSON data into R object using fromJSON()
trackback_date <- lapply(tweet_data$result, function(x){x$trackback_date})
content <- lapply(tweet_data$result, function(x){x$content})
Run Code Online (Sandbox Code Playgroud) 我正在研究二进制分类问题.说A类和B类.但问题是A和B的类先验分布类似于90%和10%.因此我尝试过的大多数分类算法都倾向于对A类的大多数情况进行分类,尽管0/1的准确度很高,但B级的类精度和召回是可怕的.我怎么能改变这个?
我对聚类和相关主题相当新,所以请原谅我的问题.
我试图通过做一些测试来介绍这个领域,作为第一个实验,我想根据内容相似性在推文上创建集群.实验的基本思想是将推文存储在数据库上并定期计算聚类(即使用cron作业).请注意,数据库会不时获得新的推文.
在这个领域无知,我的想法(可能是天真的)将是这样的事情:
1. For each new tweet in the db, extract N-grams (N=3 for example) into a set
2. Perform Jaccard similarity and compare with each of the existing clusters. If result > threshold then it would be assigned to that cluster
3. Once finished I'd get M clusters containing similar tweets
Run Code Online (Sandbox Code Playgroud)
现在我看到这个基本方法存在一些问题.让我们抛开计算成本,如何在推文和集群之间进行比较?假设我有一条推文Tn和一个包含T1,T4,T10的集群C1,我应该将它与之比较?鉴于我们正在讨论相似性,很可能会发生sim(Tn,T1)>阈值但sim(Tn,T4)<阈值.我的直觉告诉我,为了避免这个问题,应该为集群使用类似平均值的东西.
此外,可能发生sim(Tn,C1)和sim(Tn,C2)都是>阈值但与C1的相似性会更高.在那种情况下,Tn应该转到C1.这也可以做蛮力,以便将推文分配给具有最大相似性的群集.
最后,这是计算问题.我一直在阅读有关minhash的一些内容,它似乎是这个问题的答案,尽管我需要对它进行更多的研究.
无论如何,我的主要问题是:在该地区有经验的人是否可以向我推荐我应该采用哪种方法?我读过一些关于LSA和其他方法的提及,但是试图应对一切都变得有点压倒性,所以我很欣赏一些指导.
从我正在阅读的工具来看,这将是层次聚类,因为它允许在新数据进入时重新组合聚类.它是否正确?
请注意,我不是在寻找任何复杂的案例.我的用例理念是能够在没有任何先前信息的情况下将类似的推文聚类成组.例如,来自Foursquare的推文("我正在检查......"彼此相似的推文将是一个案例,或者"我的klout得分是......").另请注意,我希望这与语言无关,所以我对处理特定语言问题不感兴趣.
我有一个文档数据集,我将其转换为矩阵并运行k-means聚类,如何绘制图形以显示具有矩阵的聚类?
k<-5
kmeansResult<-kmeans(m3,k)
plot(m3, col = kmeansResult$cluster)
points(kmeansResult$centers, col = 1:5, pch = 8, cex = 5)
Run Code Online (Sandbox Code Playgroud)

在频繁生成关联规则挖掘的项目集时,最大和闭合模式项目集之间的根本区别是什么。有人可以指导我有关他们的资源吗?
data-mining ×10
r ×2
database ×1
distance ×1
json ×1
k-means ×1
rapidminer ×1
statistics ×1
text-mining ×1
weka ×1