标签: data-mining

library(MASS)
library(e1071)
data <- ChickWeight
data <- data[-3]  # removing unwanted column  
tune.svm(data$Diet~., data = data , gamma = 10^(-6:-1) , cost=10^(-1:1))

Run Code Online (Sandbox Code Playgroud)

错误。

 Error in model.frame.default(formula, data) : 
 variable lengths differ (found for 'weight')

Run Code Online (Sandbox Code Playgroud)

我尝试在谷歌上搜索错误，但我可以找到正确的修复方法或为什么会产生此错误。

请让我们知道出了什么问题。

r data-mining svm

sha*_*oss

2014 12-10

3
推荐指数

1
解决办法

3513
查看次数

使用sklearn对弧度距离矩阵进行DBSCAN？

我希望对几个时间戳（以分钟为单位）进行聚类。所以到目前为止我所做的是：

1) 将点转换为弧度

#points containing time value in minutes
points = [100, 200, 600, 659, 700]

def convert_to_radian(x):
    return((x / (24 * 60)) * 2 * pi)

rad_function = np.vectorize(convert_to_radian)
points_rad = rad_function(points)

Run Code Online (Sandbox Code Playgroud)

2) 生成距离矩阵

#generate distance matrix from each point
dist = points_rad[None,:] - points_rad[:, None]

Run Code Online (Sandbox Code Playgroud)

3）分配每个点的最短距离

dist[((dist > pi) & (dist <= (2*pi)))] = dist[((dist > pi) & (dist <= (2*pi)))] -(2*pi)
dist[((dist > (-2*pi)) & (dist <= (-1*pi)))] = dist[((dist > (-2*pi)) & (dist <= (-1*pi)))] + …

Run Code Online (Sandbox Code Playgroud)

python numpy data-mining scipy scikit-learn

coo*_*kie

2016 06-08

3
推荐指数

1
解决办法

2102
查看次数

sklearn 聚类：在大数据集上确定最佳聚类数的最快方法

我用K均值和silhouette_score从蟒蛇来计算我的群集sklearn，但> 10.000样品> 1000集群计算silhouette_score是很慢的。

有没有更快的方法来确定最佳集群数？
或者我应该改变聚类算法？如果是，对于具有 >300.000 个样本和大量集群的数据集，哪种算法是最好的（也是最快的）？

python cluster-analysis data-mining bigdata scikit-learn

C-J*_*Jay

2017 09-23

3
推荐指数

1
解决办法

7330
查看次数

使用 Gensim 提取短语时出错

我正在尝试使用 Gensim 中的短语获取句子中的二元组，如下所示。

from gensim.models import Phrases
from gensim.models.phrases import Phraser
documents = ["the mayor of new york was there", "machine learning can be useful sometimes","new york mayor was present"]

sentence_stream = [doc.split(" ") for doc in documents]
#print(sentence_stream)
bigram = Phrases(sentence_stream, min_count=1, threshold=2, delimiter=b' ')
bigram_phraser = Phraser(bigram)

for sent in sentence_stream:
    tokens_ = bigram_phraser[sent]
    print(tokens_)

Run Code Online (Sandbox Code Playgroud)

即使将“new”、“york”捕获为“new york”，它也不会捕获“machine”，将学习作为“机器学习”

但是，在Gensim 网站上显示的示例中，他们能够将“机器”、“学习”等词捕获为“机器学习”。

请让我知道如何在上面的示例中将“机器学习”作为二元组

python data-mining text-mining gensim word2vec

作者

lucky-day

3
推荐指数

1
解决办法

1293
查看次数

In storage.mode(x) <- "double" ：在 kmeans 中通过强制转换引入的 NA

我正在尝试将数据分成 5 个集群。但我收到以下错误

> colSums(sapply(train1,is.na))
     train_id              name item_condition_id     category_name 
            0                 0                 0                 0 
   brand_name             price          shipping  item_description 
            0                 0                 0                 0 
> train1matrix=as.matrix(train1)
> train1vector=as.vector(train1matrix)
> k=5
> set.seed(88)
> KMC=kmeans(train1vector,centers=k,iter.max=1000)
Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)
In addition: Warning message:
In storage.mode(x) <- "double" : NAs introduced by coercion

Run Code Online (Sandbox Code Playgroud)

有人可以帮帮我吗？先感谢您

r data-mining

Sri*_*han

lucky-day

3
推荐指数

1
解决办法

3万
查看次数

如何使用python从公共谷歌表格中获取数据？

我正在尝试获取以下 google 工作表的不同工作表中存在的 COVID-19 数据。g-sheet 可供公众使用，URL 仅返回第一个工作表。我想抓取所有工作表。任何人都可以提供帮助吗？这是谷歌表格链接：

https://docs.google.com/spreadsheets/d/e/2PACX-1vSc_2y5N0I67wDU38DjDh35IZSIS30rQf7_NYZhtYYGU1jJYT6_kDx4YpF-qw0LSlGsBYP8pqM_a1Pd/pubhtml

python data-mining google-sheets web-scraping google-sheets-api

Ani*_*wad

lucky-day

3
推荐指数

1
解决办法

4708
查看次数

安装从 CRAN 中删除的包

我正在使用 R 编程语言。我正在尝试安装“使用 R 进行数据挖掘”( DMwR) 包。但是，当我访问此包的CRAN 网站时，它似乎消失了：

包“DMwR”已从 CRAN 存储库中删除。
以前可用的版本可以从存档中获得。
存档于 2021-03-16，因为尽管有提醒，但检查问题仍未得到纠正。
可以从检查结果存档中获得最近检查结果的摘要。

我访问了这个包的Github 页面

然后，我尝试直接从 Github 安装这个包：

> library(devtools)

Loading required package: usethis
Warning message:
package ‘usethis’ was built under R version 4.0.5 

> install_github("Luis Torgo/DMwR")

Error: Failed to install 'unknown package' from GitHub:
  JSON: EXPECTED value GOT <

Run Code Online (Sandbox Code Playgroud)

但这也行不通。有人可以告诉我如何安装这个包吗？

r github data-mining cran

Noo*_*ob

2021 06-15

3
推荐指数

2
解决办法

215
查看次数