标签: data-mining

如何在perl中跳过'die'

我正在尝试使用perl API从网站中提取数据.该过程是使用uris列表作为输入.然后我从网站上提取每个uri的相关信息.如果一个uri的信息不存在,它就会死亡.有点像下面的代码

my @tags = $c->posts_for(uri =>"$currentURI");
die "No candidate related articles\n" unless @tags;
Run Code Online (Sandbox Code Playgroud)

现在,我不希望程序停止,如果它没有得到任何标签.我希望程序跳过那个特定的uri并转到下一个可用的uri.我该怎么做?感谢您的时间和帮助.

谢谢Sammed

perl data-mining

2
推荐指数
1
解决办法
560
查看次数

开发算法来分析单词

我正在开展一个项目,我有七个"帖子".这些帖子只是关于这个主题的一两句话.我需要做的是开发一种算法,查看帖子并识别某些趋势.例如,"A很好,但会导致B." 我需要开发一种算法来识别A和B之间的联系.

但是,正如您可以从我的子标准说明中所知,我不知道如何解决这个问题.任何人都能指出我正确的方向吗?我查看了数据挖掘,但我不确定这是否是我需要的.

algorithm nlp data-mining text-mining

2
推荐指数
2
解决办法
694
查看次数

是否有任何点聚类算法将点数收集到附近的组中?

我正在写一个iOS照片管理应用程序.

我想通过GPS信息将照片分组.然后我可以获得一个组的平均GPS信息,并给该组命名,例如:前往纽约.

是否有任何方便的算法通过GPS信息将附近的照片收集到群组中?

algorithm gps photo cluster-analysis data-mining

2
推荐指数
1
解决办法
3841
查看次数

postgres如何处理位数据类型?

我有一个类型为bit(2000)的列向量的表.db引擎如何处理此值的操作ANDOR?它是否只是分成32位块(或分别为64位),然后分别比较每个块,最后简单地将结果连接在一起?还是只处理两个字符串?

我的观点是预测,哪个用例会更快.我得到了一个键值数据(用户项).

userID | itemID
U1     | I1
U1     | Ix
Un     | Ij
Run Code Online (Sandbox Code Playgroud)

对于每个用户,我想计算n个最近邻居的列表(例如,使用jaccard索引).

select my_jaccard(select itemID from table where userID=U1,select itemID from table where userID=U2)
Run Code Online (Sandbox Code Playgroud)

我的解决方案 - 我将输入数据解析为用户向量表,其中向量的类型为bit(2000),在表示特定项目的位置上有1.

userID | vector
U1     | 00.......01
U1     | 0..1.....00
Un     | 00..1..1..0
Run Code Online (Sandbox Code Playgroud)

我只是在这张桌子上

select vector1&vector2
Run Code Online (Sandbox Code Playgroud)

关键是每个用户最多只有10条记录用于所有项目,即向量最多有10个有效位.我认为,解析整个bitvector只是为了找到有效位需要更多的计算资源,而不是简单地将user1的10个值与user2的10个值相互比较.

是否更快地使用长位向量,这些位向量的位数设置为1,或者更好地将原始值用作集合并将两个集合在一起?(一套最多10件)

我同时使用psql v8.2和v9.x.

postgresql vectorization data-mining computation

2
推荐指数
1
解决办法
3771
查看次数

k表示聚类算法

我想对一组10个数据点执行ak均值聚类分析,每个数据点都具有与之关联的4个数值数组。我正在使用Pearson相关系数作为距离度量。我完成了k均值聚类算法的前两个步骤:

1)选择一组k个聚类的初始中心。[我随机选择了两个初始中心]

2)将每个对象分配给具有最近中心的聚类。[我使用Pearson相关系数作为距离度量标准-见下文]

现在,我需要帮助来了解算法的第三步:

3)计算集群的新中心:

新中心的公式 条件

其中,在这种情况下,X是4维向量,n是群集中数据点的数量。

对于以下数据,我将如何计算C(S)?

# Cluster 1
A   10  15  20  25  # randomly chosen centre
B   21  33  21  23
C   43  14  23  23
D   37  45  43  49
E   40  43  32  32

# Cluster 2
F  100  102 143 212 #random chosen centre
G  303  213 212 302
H  102  329 203 212
I  32   201 430 48
J  60   99  87  34
Run Code Online (Sandbox Code Playgroud)

k均值算法的最后一步是重复步骤2和3,直到没有任何对象改变簇为止,这非常简单。

我需要有关步骤3的帮助。计算群集的新中心。如果有人可以讲解并解释如何计算仅一个集群的新中心,那将对我有极大的帮助。

algorithm cluster-analysis data-mining pearson k-means

2
推荐指数
1
解决办法
3933
查看次数

如何在WEKA中设置参数以使用SMOTE过滤器平衡数据?

我在WEKA中使用SMOTE过滤器来平衡数据.
我怀疑这两个参数nearestNeighborspercentage.

nearestNeighbors - 要使用的最近邻居数.
percentage - 要创建的SMOTE实例的百分比.

我应该怎么设置它们?

我认为邻居的数量是它要创建的同步样本的数量.
那么百分比的含义是什么?它应该小于或等于邻居的数量,对吧?是否考虑了合成样本的百分比?

例如:
如果我把10个邻居和200%会发生什么?
谁能给我一些正确使用的例子?

data-mining weka sample-data

2
推荐指数
1
解决办法
8743
查看次数

使用频率在R中提取变量

假设我有一个数据帧:

 x  y
 a  1
 b  2
 a  3
 a  4
 b  5
 c  6
 a  7
 d  8
 a  9
 b 10
 e 12
 b 13
 c 15
Run Code Online (Sandbox Code Playgroud)

我想创建另一个数据帧,其中仅包含x发生至少3次(价值ab,在这种情况下),以及它们相应的最高y值.

所以我希望输出为:

x   y
a   9
b   13
Run Code Online (Sandbox Code Playgroud)

这里913它们分别是a和的最高值b

我试过用:

sort-(table(x,y)) 
Run Code Online (Sandbox Code Playgroud)

但它不起作用.

r data-mining

2
推荐指数
2
解决办法
102
查看次数

顺序挖掘模式相对于先验算法的优势是什么?

我的意思是只有像 aprioriall 这样的序列模式算法才能对项目进行排序吗?这可能会减少关联规则的数量吗?

data-mining

2
推荐指数
1
解决办法
2665
查看次数

特征工程和特征提取有什么区别?

我正在努力找到这两个概念之间的区别.据我所知,两者都指的是将原始数据转换为更全面的功能来描述手头的问题.它们是一样的吗?如果没有,请为两者提供示例吗?

machine-learning data-mining feature-extraction

2
推荐指数
1
解决办法
3705
查看次数

如何在Word2Vec上执行群集

我有一个半结构化的数据集,每一行都属于一个用户:

id, skills
0,"java, python, sql"
1,"java, python, spark, html"
2, "business management, communication"
Run Code Online (Sandbox Code Playgroud)

之所以半结构化是因为只能从580个唯一值的列表中选择以下技能。

我的目标是聚集用户,或根据相似的技能组找到相似的用户。我尝试使用Word2Vec模型,该模型为识别相似的技能组提供了很好的结果-例如。

model.most_similar(["Data Science"])
Run Code Online (Sandbox Code Playgroud)

给我 -

[('Data Mining', 0.9249375462532043),
 ('Data Visualization', 0.9111810922622681),
 ('Big Data', 0.8253220319747925),...
Run Code Online (Sandbox Code Playgroud)

这为我提供了一个很好的模型,用于识别个人技能而不是技能组。如何利用Word2Vec模型提供的向量来成功地对相似用户的组进行聚类?

python nlp cluster-analysis data-mining word2vec

2
推荐指数
1
解决办法
2802
查看次数