标签: data-mining

library(RJSONIO)
library(RCurl)
tweet_data <- getURL("http://otter.topsy.com/search.json?q=PSN&mintime=1301634000&perpage=10&maxtime=1304226000&apikey=xxx")
fromJSON(tweet_data)

Run Code Online (Sandbox Code Playgroud)

哪个工作正常.但是,现在我想从这个文件中返回一些细节,'content'和'trackback_date'.我似乎无法弄清楚如何 - 我曾尝试将几个例子拼凑在一起,但无法提取我想要的东西.

这是我到目前为止所尝试的:

trackback_date <- lapply(tweet_data$result, function(x){x$trackback_date})

content <- lapply(tweet_data$result, function(x){x$content})

Run Code Online (Sandbox Code Playgroud)

非常感谢任何帮助,谢谢.

编辑我也尝试过:

library("rjson")
# use rjson

tweet_data <- fromJSON(paste(readLines("http://otter.topsy.com/search.json?q=PSN&mintime=1301634000&perpage=10&maxtime=1304226000&apikey=xxx"), collapse=""))
# get a data from Topsy Otter API
# convert JSON data into R object using fromJSON()

trackback_date <- lapply(tweet_data$result, function(x){x$trackback_date})

content <- lapply(tweet_data$result, function(x){x$content})

Run Code Online (Sandbox Code Playgroud)

json r data-mining

Cof*_*eee

2013 01-16

2
推荐指数

1
解决办法

1686
查看次数

二进制分类:如果我最关心的类只是数据的一小部分怎么办？

我正在研究二进制分类问题.说A类和B类.但问题是A和B的类先验分布类似于90%和10%.因此我尝试过的大多数分类算法都倾向于对A类的大多数情况进行分类,尽管0/1的准确度很高,但B级的类精度和召回是可怕的.我怎么能改变这个？

machine-learning data-mining

use*_*372

lucky-day

2
推荐指数

1
解决办法

284
查看次数

怀疑有关推文的聚类方法

我对聚类和相关主题相当新,所以请原谅我的问题.

我试图通过做一些测试来介绍这个领域,作为第一个实验,我想根据内容相似性在推文上创建集群.实验的基本思想是将推文存储在数据库上并定期计算聚类(即使用cron作业).请注意,数据库会不时获得新的推文.

在这个领域无知,我的想法(可能是天真的)将是这样的事情:

1. For each new tweet in the db, extract N-grams (N=3 for example) into a set
2. Perform Jaccard similarity and compare with each of the existing clusters. If result > threshold then it would be assigned to that cluster
3. Once finished I'd get M clusters containing similar tweets

Run Code Online (Sandbox Code Playgroud)

现在我看到这个基本方法存在一些问题.让我们抛开计算成本,如何在推文和集群之间进行比较？假设我有一条推文Tn和一个包含T1,T4,T10的集群C1,我应该将它与之比较？鉴于我们正在讨论相似性,很可能会发生sim(Tn,T1)>阈值但sim(Tn,T4)<阈值.我的直觉告诉我,为了避免这个问题,应该为集群使用类似平均值的东西.

此外,可能发生sim(Tn,C1)和sim(Tn,C2)都是>阈值但与C1的相似性会更高.在那种情况下,Tn应该转到C1.这也可以做蛮力,以便将推文分配给具有最大相似性的群集.

最后,这是计算问题.我一直在阅读有关minhash的一些内容,它似乎是这个问题的答案,尽管我需要对它进行更多的研究.

无论如何,我的主要问题是:在该地区有经验的人是否可以向我推荐我应该采用哪种方法？我读过一些关于LSA和其他方法的提及,但是试图应对一切都变得有点压倒性,所以我很欣赏一些指导.

从我正在阅读的工具来看,这将是层次聚类,因为它允许在新数据进入时重新组合聚类.它是否正确？

请注意,我不是在寻找任何复杂的案例.我的用例理念是能够在没有任何先前信息的情况下将类似的推文聚类成组.例如,来自Foursquare的推文("我正在检查......"彼此相似的推文将是一个案例,或者"我的klout得分是......").另请注意,我希望这与语言无关,所以我对处理特定语言问题不感兴趣.

cluster-analysis hierarchical-clustering data-mining

Dan*_*Dan

2015 09-17

2
推荐指数

1
解决办法

1908
查看次数

如何用矩阵绘制聚类？

我有一个文档数据集,我将其转换为矩阵并运行k-means聚类,如何绘制图形以显示具有矩阵的聚类？

k<-5
kmeansResult<-kmeans(m3,k)
plot(m3, col = kmeansResult$cluster)
points(kmeansResult$centers, col = 1:5, pch = 8, cex = 5)

Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

r cluster-analysis data-mining

use*_*230

2014 05-12

2
推荐指数

1
解决办法

2762
查看次数

关联规则挖掘中的最大模式与封闭模式

在频繁生成关联规则挖掘的项目集时，最大和闭合模式项目集之间的根本区别是什么。有人可以指导我有关他们的资源吗？

machine-learning data-mining

Mic*_*ael

2015 11-03

2
推荐指数

4
解决办法

9335
查看次数

标签统计

data-mining ×10

machine-learning ×4

cluster-analysis ×3

r ×2

database ×1

distance ×1

hierarchical-clustering ×1

json ×1

k-means ×1

rapidminer ×1

statistics ×1

text-mining ×1

weka ×1

标签 统计

标签统计