标签: data-mining

从文章中提取相关关键字/标签的java工具

我正在寻找基于java的工具来从给定的文章中提取相关标签。我需要一个工具,基本上可以尝试识别给定文章相关的主要主题和术语。谢谢你的帮助。

java search-engine metadata data-mining

3
推荐指数
1
解决办法
2392
查看次数

如何在 k 均值中使用欧氏距离以外的不同距离公式

我正在处理纬度经度数据。我必须根据两点之间的距离进行聚类。现在两个不同点之间的距离是=ACOS(SIN(lat1)*SIN(lat2)+COS(lat1)*COS(lat2)*COS(lon2-lon1))*6371

我想在 R 中使用 k 均值。有什么方法可以覆盖该过程中的距离计算吗?

r cluster-analysis machine-learning data-mining k-means

3
推荐指数
1
解决办法
5473
查看次数

Libsvm / Lib Linear 中的实例称重

我经常将实例权重与 Libsvm 结合使用来解决分类问题。 http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/#weights_for_data_instances

有谁知道在 libsvm 中使用实例权重时实现的算法的细节吗?标准 SVM 模型学习算法为所有训练实例分配相同的权重,从而为训练实例的误差分配相同的权重。我相信 Libsvm 使用的算法会有所不同。在网上搜索时,我确实发现了一些做类似事情的论文。例如[1],但我需要与可能确定这一点的人确认。

谢谢!

[1] 杨旭雷,宋青,王悦. “用于数据分类的加权支持向量机。” 国际模式识别和人工智能杂志 21.05 (2007): 961-976。

machine-learning data-mining svm libsvm liblinear

3
推荐指数
1
解决办法
1277
查看次数

使用 R 的 SVM 分类 - 可变长度差异误差

我目前正在 R 中可用包的帮助下处理 SVM 分类问题。

本网站中给出的示例代码工作正常。 http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/SVM

但是当使用不同的数据集尝试相同的程序时,我得到了可变长度不同的错误。这是我的代码。

library(MASS)
library(e1071)
data <- ChickWeight
data <- data[-3]  # removing unwanted column  
tune.svm(data$Diet~., data = data , gamma = 10^(-6:-1) , cost=10^(-1:1))
Run Code Online (Sandbox Code Playgroud)

错误。

 Error in model.frame.default(formula, data) : 
 variable lengths differ (found for 'weight')
Run Code Online (Sandbox Code Playgroud)

我尝试在谷歌上搜索错误,但我可以找到正确的修复方法或为什么会产生此错误。

请让我们知道出了什么问题。

r data-mining svm

3
推荐指数
1
解决办法
3513
查看次数

使用sklearn对弧度距离矩阵进行DBSCAN?

我希望对几个时间戳(以分钟为单位)进行聚类。所以到目前为止我所做的是:

1) 将点转换为弧度

#points containing time value in minutes
points = [100, 200, 600, 659, 700]

def convert_to_radian(x):
    return((x / (24 * 60)) * 2 * pi)

rad_function = np.vectorize(convert_to_radian)
points_rad = rad_function(points)
Run Code Online (Sandbox Code Playgroud)

2) 生成距离矩阵

#generate distance matrix from each point
dist = points_rad[None,:] - points_rad[:, None]
Run Code Online (Sandbox Code Playgroud)

3)分配每个点的最短距离

dist[((dist > pi) & (dist <= (2*pi)))] = dist[((dist > pi) & (dist <= (2*pi)))] -(2*pi)
dist[((dist > (-2*pi)) & (dist <= (-1*pi)))] = dist[((dist > (-2*pi)) & (dist <= (-1*pi)))] + …
Run Code Online (Sandbox Code Playgroud)

python numpy data-mining scipy scikit-learn

3
推荐指数
1
解决办法
2102
查看次数

sklearn 聚类:在大数据集上确定最佳聚类数的最快方法

我用K均值silhouette_score从蟒蛇来计算我的群集sklearn,但> 10.000样品> 1000集群计算silhouette_score是很慢的。

  1. 有没有更快的方法来确定最佳集群数?
  2. 或者我应该改变聚类算法?如果是,对于具有 >300.000 个样本和大量集群的数据集,哪种算法是最好的(也是最快的)?

python cluster-analysis data-mining bigdata scikit-learn

3
推荐指数
1
解决办法
7330
查看次数

使用 Gensim 提取短语时出错

我正在尝试使用 Gensim 中的短语获取句子中的二元组,如下所示。

from gensim.models import Phrases
from gensim.models.phrases import Phraser
documents = ["the mayor of new york was there", "machine learning can be useful sometimes","new york mayor was present"]

sentence_stream = [doc.split(" ") for doc in documents]
#print(sentence_stream)
bigram = Phrases(sentence_stream, min_count=1, threshold=2, delimiter=b' ')
bigram_phraser = Phraser(bigram)

for sent in sentence_stream:
    tokens_ = bigram_phraser[sent]
    print(tokens_)
Run Code Online (Sandbox Code Playgroud)

即使将“new”、“york”捕获为“new york”,它也不会捕获“machine”,将学习作为“机器学习”

但是,在Gensim 网站上显示示例中,他们能够将“机器”、“学习”等词捕获为“机器学习”。

请让我知道如何在上面的示例中将“机器学习”作为二元组

python data-mining text-mining gensim word2vec

3
推荐指数
1
解决办法
1293
查看次数

In storage.mode(x) &lt;- "double" :在 kmeans 中通过强制转换引入的 NA

我正在尝试将数据分成 5 个集群。但我收到以下错误

> colSums(sapply(train1,is.na))
     train_id              name item_condition_id     category_name 
            0                 0                 0                 0 
   brand_name             price          shipping  item_description 
            0                 0                 0                 0 
> train1matrix=as.matrix(train1)
> train1vector=as.vector(train1matrix)
> k=5
> set.seed(88)
> KMC=kmeans(train1vector,centers=k,iter.max=1000)
Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)
In addition: Warning message:
In storage.mode(x) <- "double" : NAs introduced by coercion
Run Code Online (Sandbox Code Playgroud)

有人可以帮帮我吗?先感谢您

r data-mining

3
推荐指数
1
解决办法
3万
查看次数

如何使用python从公共谷歌表格中获取数据?

我正在尝试获取以下 google 工作表的不同工作表中存在的 COVID-19 数据。g-sheet 可供公众使用,URL 仅返回第一个工作表。我想抓取所有工作表。任何人都可以提供帮助吗?这是谷歌表格链接:

https://docs.google.com/spreadsheets/d/e/2PACX-1vSc_2y5N0I67wDU38DjDh35IZSIS30rQf7_NYZhtYYGU1jJYT6_kDx4YpF-qw0LSlGsBYP8pqM_a1Pd/pubhtml

python data-mining google-sheets web-scraping google-sheets-api

3
推荐指数
1
解决办法
4708
查看次数

安装从 CRAN 中删除的包

我正在使用 R 编程语言。我正在尝试安装“使用 R 进行数据挖掘”( DMwR) 包。但是,当我访问此包CRAN 网站时,它似乎消失了:

包“DMwR”已从 CRAN 存储库中删除。
以前可用的版本可以从存档中获得。
存档于 2021-03-16,因为尽管有提醒,但检查问题仍未得到纠正。
可以从检查结果存档中获得最近检查结果的摘要。

我访问了这个包Github 页面

然后,我尝试直接从 Github 安装这个包:

> library(devtools)

Loading required package: usethis
Warning message:
package ‘usethis’ was built under R version 4.0.5 

> install_github("Luis Torgo/DMwR")

Error: Failed to install 'unknown package' from GitHub:
  JSON: EXPECTED value GOT <
Run Code Online (Sandbox Code Playgroud)

但这也行不通。有人可以告诉我如何安装这个包吗?

r github data-mining cran

3
推荐指数
2
解决办法
215
查看次数