标签: data-mining

library(ade4)
df1 <- data.frame(x=runif(100), y=runif(100))
plot(df1)
km <- kmeans(df1, centers=3)
kmeansRes<-factor(km$cluster)
s.class(df1,fac=kmeansRes, add.plot=TRUE, col=rainbow(nlevels(kmeansRes)))

Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明是否有可能将观察来自哪个集群的信息添加到数据框？

r cluster-analysis data-mining k-means

Mic*_*hał

2015 05-15

2
推荐指数

1
解决办法

6855
查看次数

R arules ：从规则中提取 lhs 项

我想从 arules 生成的规则中提取 lhs 项。

例如，

{a,b,c} => {d}

Run Code Online (Sandbox Code Playgroud)

我希望能够提取a,b,c并将其放入字符向量中，以便我可以迭代并根据这些项目进行进一步处理。

目前，我可以考虑解析规则集，将其转换为数据框，然后使用字符操作/正则表达式将这些项目分开。我希望有更好的方法来提取这些项目。

r data-mining arules

anz*_*anz

lucky-day

2
推荐指数

1
解决办法

1380
查看次数

Sklearn 或 Pandas，用简单的线性回归估算缺失值

我有数据、时间序列数据，我想估算缺失的数据。我不能使用列的平均值，因为我认为它不适合时间序列数据。所以我想要简单的线性回归来估算它

Day, Price
 1 , NaN
 2, NaN
 3, 1800
 4, 1900
 5, NaN
 6, NaN
 7, 2000
 8, 2200

Run Code Online (Sandbox Code Playgroud)

这该怎么做？

我更喜欢使用 Pandas 来做到这一点，但如果没有其他方法，我可以使用 sklearn 来做到这一点:)

python data-mining pandas scikit-learn

Avi*_*vic

2018 10-23

2
推荐指数

1
解决办法

4347
查看次数

计算单词列表之间的相似度

我想计算两个单词列表之间的相似度，例如：

['email','user','this','email','address','customer']

类似于这个列表：

['email','mail','address','netmail']

我希望比另一个列表具有更高的相似度百分比，例如： ['address','ip','network']即使address存在于列表中。

You*_*ani

2019 03-14

2
推荐指数

2
解决办法

8341
查看次数

如何使用 OR 工具的 CP-SAT 求解器构建我自己的全局约束？

我是数据挖掘领域的博士候选人，我必须使用 ORtools 创建一个全局约束以用于数据挖掘目的。

问题是互联网上缺乏关于使用 CP-Sat 创建自己的全局约束的文档，我不知道如何开始。

data-mining solver constraint-programming or-tools cp-sat

dja*_*bkh

lucky-day

2
推荐指数

1
解决办法

228
查看次数

python和scipy中稀疏矩阵的聚类

我正在尝试使用python和scipy聚类一些数据,但以下代码不能正常工作我不明白:

from scipy.sparse import *
matrix = dok_matrix((en,en), int)

for pub in pubs:
    authors = pub.split(";")
    for auth1 in authors:
        for auth2 in authors:
            if auth1 == auth2: continue
            id1 = e2id[auth1]
            id2 = e2id[auth2]
            matrix[id1, id2] += 1

from scipy.cluster.vq import vq, kmeans2, whiten
result = kmeans2(matrix, 30)
print result

Run Code Online (Sandbox Code Playgroud)

它说:

Traceback (most recent call last):
  File "cluster.py", line 40, in <module>
    result = kmeans2(matrix, 30)
  File "/usr/lib/python2.7/dist-packages/scipy/cluster/vq.py", line 683, in kmeans2
    clusters = init(data, k)
  File "/usr/lib/python2.7/dist-packages/scipy/cluster/vq.py", line …

Run Code Online (Sandbox Code Playgroud)

numpy cluster-analysis data-mining scipy k-means

Moo*_*ker

2015 07-05

1
推荐指数

1
解决办法

3416
查看次数