我正在寻找基于java的工具来从给定的文章中提取相关标签。我需要一个工具,基本上可以尝试识别给定文章相关的主要主题和术语。谢谢你的帮助。
我正在处理纬度经度数据。我必须根据两点之间的距离进行聚类。现在两个不同点之间的距离是=ACOS(SIN(lat1)*SIN(lat2)+COS(lat1)*COS(lat2)*COS(lon2-lon1))*6371
我想在 R 中使用 k 均值。有什么方法可以覆盖该过程中的距离计算吗?
我经常将实例权重与 Libsvm 结合使用来解决分类问题。 http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/#weights_for_data_instances
有谁知道在 libsvm 中使用实例权重时实现的算法的细节吗?标准 SVM 模型学习算法为所有训练实例分配相同的权重,从而为训练实例的误差分配相同的权重。我相信 Libsvm 使用的算法会有所不同。在网上搜索时,我确实发现了一些做类似事情的论文。例如[1],但我需要与可能确定这一点的人确认。
谢谢!
[1] 杨旭雷,宋青,王悦. “用于数据分类的加权支持向量机。” 国际模式识别和人工智能杂志 21.05 (2007): 961-976。
我目前正在 R 中可用包的帮助下处理 SVM 分类问题。
本网站中给出的示例代码工作正常。 http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/SVM
但是当使用不同的数据集尝试相同的程序时,我得到了可变长度不同的错误。这是我的代码。
library(MASS)
library(e1071)
data <- ChickWeight
data <- data[-3] # removing unwanted column
tune.svm(data$Diet~., data = data , gamma = 10^(-6:-1) , cost=10^(-1:1))
Run Code Online (Sandbox Code Playgroud)
错误。
Error in model.frame.default(formula, data) :
variable lengths differ (found for 'weight')
Run Code Online (Sandbox Code Playgroud)
我尝试在谷歌上搜索错误,但我可以找到正确的修复方法或为什么会产生此错误。
请让我们知道出了什么问题。
我希望对几个时间戳(以分钟为单位)进行聚类。所以到目前为止我所做的是:
1) 将点转换为弧度
#points containing time value in minutes
points = [100, 200, 600, 659, 700]
def convert_to_radian(x):
return((x / (24 * 60)) * 2 * pi)
rad_function = np.vectorize(convert_to_radian)
points_rad = rad_function(points)
Run Code Online (Sandbox Code Playgroud)
2) 生成距离矩阵
#generate distance matrix from each point
dist = points_rad[None,:] - points_rad[:, None]
Run Code Online (Sandbox Code Playgroud)
3)分配每个点的最短距离
dist[((dist > pi) & (dist <= (2*pi)))] = dist[((dist > pi) & (dist <= (2*pi)))] -(2*pi)
dist[((dist > (-2*pi)) & (dist <= (-1*pi)))] = dist[((dist > (-2*pi)) & (dist <= (-1*pi)))] + …Run Code Online (Sandbox Code Playgroud) 我用K均值和silhouette_score从蟒蛇来计算我的群集sklearn,但> 10.000样品> 1000集群计算silhouette_score是很慢的。
我正在尝试使用 Gensim 中的短语获取句子中的二元组,如下所示。
from gensim.models import Phrases
from gensim.models.phrases import Phraser
documents = ["the mayor of new york was there", "machine learning can be useful sometimes","new york mayor was present"]
sentence_stream = [doc.split(" ") for doc in documents]
#print(sentence_stream)
bigram = Phrases(sentence_stream, min_count=1, threshold=2, delimiter=b' ')
bigram_phraser = Phraser(bigram)
for sent in sentence_stream:
tokens_ = bigram_phraser[sent]
print(tokens_)
Run Code Online (Sandbox Code Playgroud)
即使将“new”、“york”捕获为“new york”,它也不会捕获“machine”,将学习作为“机器学习”
但是,在Gensim 网站上显示的示例中,他们能够将“机器”、“学习”等词捕获为“机器学习”。
请让我知道如何在上面的示例中将“机器学习”作为二元组
我正在尝试将数据分成 5 个集群。但我收到以下错误
> colSums(sapply(train1,is.na))
train_id name item_condition_id category_name
0 0 0 0
brand_name price shipping item_description
0 0 0 0
> train1matrix=as.matrix(train1)
> train1vector=as.vector(train1matrix)
> k=5
> set.seed(88)
> KMC=kmeans(train1vector,centers=k,iter.max=1000)
Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)
In addition: Warning message:
In storage.mode(x) <- "double" : NAs introduced by coercion
Run Code Online (Sandbox Code Playgroud)
有人可以帮帮我吗?先感谢您
我正在尝试获取以下 google 工作表的不同工作表中存在的 COVID-19 数据。g-sheet 可供公众使用,URL 仅返回第一个工作表。我想抓取所有工作表。任何人都可以提供帮助吗?这是谷歌表格链接:
python data-mining google-sheets web-scraping google-sheets-api
我正在使用 R 编程语言。我正在尝试安装“使用 R 进行数据挖掘”( DMwR) 包。但是,当我访问此包的CRAN 网站时,它似乎消失了:
包“DMwR”已从 CRAN 存储库中删除。
以前可用的版本可以从存档中获得。
存档于 2021-03-16,因为尽管有提醒,但检查问题仍未得到纠正。
可以从检查结果存档中获得最近检查结果的摘要。
然后,我尝试直接从 Github 安装这个包:
> library(devtools)
Loading required package: usethis
Warning message:
package ‘usethis’ was built under R version 4.0.5
> install_github("Luis Torgo/DMwR")
Error: Failed to install 'unknown package' from GitHub:
JSON: EXPECTED value GOT <
Run Code Online (Sandbox Code Playgroud)
但这也行不通。有人可以告诉我如何安装这个包吗?
data-mining ×10
python ×4
r ×4
scikit-learn ×2
svm ×2
bigdata ×1
cran ×1
gensim ×1
github ×1
java ×1
k-means ×1
liblinear ×1
libsvm ×1
metadata ×1
numpy ×1
scipy ×1
text-mining ×1
web-scraping ×1
word2vec ×1