标签: data-mining

如何在perl中跳过'die'

我正在尝试使用perl API从网站中提取数据.该过程是使用uris列表作为输入.然后我从网站上提取每个uri的相关信息.如果一个uri的信息不存在,它就会死亡.有点像下面的代码

my @tags = $c->posts_for(uri =>"$currentURI");
die "No candidate related articles\n" unless @tags;

Run Code Online (Sandbox Code Playgroud)

现在,我不希望程序停止,如果它没有得到任何标签.我希望程序跳过那个特定的uri并转到下一个可用的uri.我该怎么做？感谢您的时间和帮助.

谢谢Sammed

perl data-mining

sam*_*med

2011 07-13

2
推荐指数

1
解决办法

560
查看次数

开发算法来分析单词

我正在开展一个项目,我有七个"帖子".这些帖子只是关于这个主题的一两句话.我需要做的是开发一种算法,查看帖子并识别某些趋势.例如,"A很好,但会导致B." 我需要开发一种算法来识别A和B之间的联系.

但是,正如您可以从我的子标准说明中所知,我不知道如何解决这个问题.任何人都能指出我正确的方向吗？我查看了数据挖掘,但我不确定这是否是我需要的.

algorithm nlp data-mining text-mining

use*_*897

2016 01-16

2
推荐指数

2
解决办法

694
查看次数

是否有任何点聚类算法将点数收集到附近的组中？

我正在写一个iOS照片管理应用程序.

我想通过GPS信息将照片分组.然后我可以获得一个组的平均GPS信息,并给该组命名,例如:前往纽约.

是否有任何方便的算法通过GPS信息将附近的照片收集到群组中？

algorithm gps photo cluster-analysis data-mining

sxi*_*eng

2015 06-04

2
推荐指数

1
解决办法

3841
查看次数

postgres如何处理位数据类型？

我有一个类型为bit(2000)的列向量的表.db引擎如何处理此值的操作AND和OR？它是否只是分成32位块(或分别为64位),然后分别比较每个块,最后简单地将结果连接在一起？还是只处理两个字符串？

我的观点是预测,哪个用例会更快.我得到了一个键值数据(用户项).

userID | itemID
U1     | I1
U1     | Ix
Un     | Ij

Run Code Online (Sandbox Code Playgroud)

对于每个用户,我想计算n个最近邻居的列表(例如,使用jaccard索引).

select my_jaccard(select itemID from table where userID=U1,select itemID from table where userID=U2)

Run Code Online (Sandbox Code Playgroud)

我的解决方案 - 我将输入数据解析为用户向量表,其中向量的类型为bit(2000),在表示特定项目的位置上有1.

userID | vector
U1     | 00.......01
U1     | 0..1.....00
Un     | 00..1..1..0

Run Code Online (Sandbox Code Playgroud)

我只是在这张桌子上

select vector1&vector2

Run Code Online (Sandbox Code Playgroud)

关键是每个用户最多只有10条记录用于所有项目,即向量最多有10个有效位.我认为,解析整个bitvector只是为了找到有效位需要更多的计算资源,而不是简单地将user1的10个值与user2的10个值相互比较.

是否更快地使用长位向量,这些位向量的位数设置为1,或者更好地将原始值用作集合并将两个集合在一起？(一套最多10件)

我同时使用psql v8.2和v9.x.

postgresql vectorization data-mining computation

ulk*_*kas

2013 01-08

2
推荐指数

1
解决办法

3771
查看次数

k表示聚类算法

我想对一组10个数据点执行ak均值聚类分析，每个数据点都具有与之关联的4个数值数组。我正在使用Pearson相关系数作为距离度量。我完成了k均值聚类算法的前两个步骤：

1）选择一组k个聚类的初始中心。[我随机选择了两个初始中心]

2）将每个对象分配给具有最近中心的聚类。[我使用Pearson相关系数作为距离度量标准-见下文]

现在，我需要帮助来了解算法的第三步：

3）计算集群的新中心：

新中心的公式

其中，在这种情况下，X是4维向量，n是群集中数据点的数量。

对于以下数据，我将如何计算C（S）？

# Cluster 1
A   10  15  20  25  # randomly chosen centre
B   21  33  21  23
C   43  14  23  23
D   37  45  43  49
E   40  43  32  32

# Cluster 2
F  100  102 143 212 #random chosen centre
G  303  213 212 302
H  102  329 203 212
I  32   201 430 48
J  60   99  87  34

Run Code Online (Sandbox Code Playgroud)

k均值算法的最后一步是重复步骤2和3，直到没有任何对象改变簇为止，这非常简单。

我需要有关步骤3的帮助。计算群集的新中心。如果有人可以讲解并解释如何计算仅一个集群的新中心，那将对我有极大的帮助。

algorithm cluster-analysis data-mining pearson k-means

coo*_*490

2015 08-03

2
推荐指数

1
解决办法

3933
查看次数

如何在WEKA中设置参数以使用SMOTE过滤器平衡数据？

我在WEKA中使用SMOTE过滤器来平衡数据.
我怀疑这两个参数nearestNeighbors和percentage.

nearestNeighbors - 要使用的最近邻居数.
percentage - 要创建的SMOTE实例的百分比.

我应该怎么设置它们？

我认为邻居的数量是它要创建的同步样本的数量.
那么百分比的含义是什么？它应该小于或等于邻居的数量,对吧？是否考虑了合成样本的百分比？

例如:
如果我把10个邻居和200%会发生什么？
谁能给我一些正确使用的例子？

data-mining weka sample-data

use*_*180

2014 03-25

2
推荐指数

1
解决办法

8743
查看次数

使用频率在R中提取变量

假设我有一个数据帧:

Run Code Online (Sandbox Code Playgroud)

我想创建另一个数据帧,其中仅包含x发生至少3次(价值a和b,在这种情况下),以及它们相应的最高y值.

所以我希望输出为:

x   y
a   9
b   13

Run Code Online (Sandbox Code Playgroud)

这里9和13它们分别是a和的最高值b

我试过用:

sort-(table(x,y))

Run Code Online (Sandbox Code Playgroud)

但它不起作用.

r data-mining

Lea*_*r27

2015 01-22

2
推荐指数

2
解决办法

102
查看次数

顺序挖掘模式相对于先验算法的优势是什么？

我的意思是只有像 aprioriall 这样的序列模式算法才能对项目进行排序吗？这可能会减少关联规则的数量吗？

data-mining

Ren*_*oya

2015 02-02

2
推荐指数

1
解决办法

2665
查看次数

特征工程和特征提取有什么区别？

我正在努力找到这两个概念之间的区别.据我所知,两者都指的是将原始数据转换为更全面的功能来描述手头的问题.它们是一样的吗？如果没有,请为两者提供示例吗？

machine-learning data-mining feature-extraction

Stu*_*SQL

2016 08-28

2
推荐指数

1
解决办法

3705
查看次数

如何在Word2Vec上执行群集

我有一个半结构化的数据集，每一行都属于一个用户：

id, skills
0,"java, python, sql"
1,"java, python, spark, html"
2, "business management, communication"

Run Code Online (Sandbox Code Playgroud)

之所以半结构化是因为只能从580个唯一值的列表中选择以下技能。

我的目标是聚集用户，或根据相似的技能组找到相似的用户。我尝试使用Word2Vec模型，该模型为识别相似的技能组提供了很好的结果-例如。

model.most_similar(["Data Science"])

Run Code Online (Sandbox Code Playgroud)

给我 -

[('Data Mining', 0.9249375462532043),
 ('Data Visualization', 0.9111810922622681),
 ('Big Data', 0.8253220319747925),...

Run Code Online (Sandbox Code Playgroud)

这为我提供了一个很好的模型，用于识别个人技能而不是技能组。如何利用Word2Vec模型提供的向量来成功地对相似用户的组进行聚类？

python nlp cluster-analysis data-mining word2vec

Iva*_*van

lucky-day

2
推荐指数

1
解决办法

2802
查看次数

标签统计

data-mining ×10

algorithm ×3

cluster-analysis ×3

nlp ×2

computation ×1

feature-extraction ×1

gps ×1

k-means ×1

machine-learning ×1

pearson ×1

perl ×1

photo ×1

postgresql ×1

python ×1

r ×1

sample-data ×1

text-mining ×1

vectorization ×1

weka ×1

word2vec ×1

标签 统计

标签统计