我正在尝试使用perl API从网站中提取数据.该过程是使用uris列表作为输入.然后我从网站上提取每个uri的相关信息.如果一个uri的信息不存在,它就会死亡.有点像下面的代码
my @tags = $c->posts_for(uri =>"$currentURI");
die "No candidate related articles\n" unless @tags;
Run Code Online (Sandbox Code Playgroud)
现在,我不希望程序停止,如果它没有得到任何标签.我希望程序跳过那个特定的uri并转到下一个可用的uri.我该怎么做?感谢您的时间和帮助.
谢谢Sammed
我正在开展一个项目,我有七个"帖子".这些帖子只是关于这个主题的一两句话.我需要做的是开发一种算法,查看帖子并识别某些趋势.例如,"A很好,但会导致B." 我需要开发一种算法来识别A和B之间的联系.
但是,正如您可以从我的子标准说明中所知,我不知道如何解决这个问题.任何人都能指出我正确的方向吗?我查看了数据挖掘,但我不确定这是否是我需要的.
我正在写一个iOS照片管理应用程序.
我想通过GPS信息将照片分组.然后我可以获得一个组的平均GPS信息,并给该组命名,例如:前往纽约.
是否有任何方便的算法通过GPS信息将附近的照片收集到群组中?
我有一个类型为bit(2000)的列向量的表.db引擎如何处理此值的操作AND和OR?它是否只是分成32位块(或分别为64位),然后分别比较每个块,最后简单地将结果连接在一起?还是只处理两个字符串?
我的观点是预测,哪个用例会更快.我得到了一个键值数据(用户项).
userID | itemID
U1 | I1
U1 | Ix
Un | Ij
Run Code Online (Sandbox Code Playgroud)
对于每个用户,我想计算n个最近邻居的列表(例如,使用jaccard索引).
select my_jaccard(select itemID from table where userID=U1,select itemID from table where userID=U2)
Run Code Online (Sandbox Code Playgroud)
我的解决方案 - 我将输入数据解析为用户向量表,其中向量的类型为bit(2000),在表示特定项目的位置上有1.
userID | vector
U1 | 00.......01
U1 | 0..1.....00
Un | 00..1..1..0
Run Code Online (Sandbox Code Playgroud)
我只是在这张桌子上
select vector1&vector2
Run Code Online (Sandbox Code Playgroud)
关键是每个用户最多只有10条记录用于所有项目,即向量最多有10个有效位.我认为,解析整个bitvector只是为了找到有效位需要更多的计算资源,而不是简单地将user1的10个值与user2的10个值相互比较.
是否更快地使用长位向量,这些位向量的位数设置为1,或者更好地将原始值用作集合并将两个集合在一起?(一套最多10件)
我同时使用psql v8.2和v9.x.
我想对一组10个数据点执行ak均值聚类分析,每个数据点都具有与之关联的4个数值数组。我正在使用Pearson相关系数作为距离度量。我完成了k均值聚类算法的前两个步骤:
1)选择一组k个聚类的初始中心。[我随机选择了两个初始中心]
2)将每个对象分配给具有最近中心的聚类。[我使用Pearson相关系数作为距离度量标准-见下文]
现在,我需要帮助来了解算法的第三步:
3)计算集群的新中心:

其中,在这种情况下,X是4维向量,n是群集中数据点的数量。
对于以下数据,我将如何计算C(S)?
# Cluster 1
A 10 15 20 25 # randomly chosen centre
B 21 33 21 23
C 43 14 23 23
D 37 45 43 49
E 40 43 32 32
# Cluster 2
F 100 102 143 212 #random chosen centre
G 303 213 212 302
H 102 329 203 212
I 32 201 430 48
J 60 99 87 34
Run Code Online (Sandbox Code Playgroud)
k均值算法的最后一步是重复步骤2和3,直到没有任何对象改变簇为止,这非常简单。
我需要有关步骤3的帮助。计算群集的新中心。如果有人可以讲解并解释如何计算仅一个集群的新中心,那将对我有极大的帮助。
我在WEKA中使用SMOTE过滤器来平衡数据.
我怀疑这两个参数nearestNeighbors和percentage.
nearestNeighbors - 要使用的最近邻居数.
percentage - 要创建的SMOTE实例的百分比.
我应该怎么设置它们?
我认为邻居的数量是它要创建的同步样本的数量.
那么百分比的含义是什么?它应该小于或等于邻居的数量,对吧?是否考虑了合成样本的百分比?
例如:
如果我把10个邻居和200%会发生什么?
谁能给我一些正确使用的例子?
假设我有一个数据帧:
x y
a 1
b 2
a 3
a 4
b 5
c 6
a 7
d 8
a 9
b 10
e 12
b 13
c 15
Run Code Online (Sandbox Code Playgroud)
我想创建另一个数据帧,其中仅包含x发生至少3次(价值a和b,在这种情况下),以及它们相应的最高y值.
所以我希望输出为:
x y
a 9
b 13
Run Code Online (Sandbox Code Playgroud)
这里9和13它们分别是a和的最高值b
我试过用:
sort-(table(x,y))
Run Code Online (Sandbox Code Playgroud)
但它不起作用.
我的意思是只有像 aprioriall 这样的序列模式算法才能对项目进行排序吗?这可能会减少关联规则的数量吗?
我正在努力找到这两个概念之间的区别.据我所知,两者都指的是将原始数据转换为更全面的功能来描述手头的问题.它们是一样的吗?如果没有,请为两者提供示例吗?
我有一个半结构化的数据集,每一行都属于一个用户:
id, skills
0,"java, python, sql"
1,"java, python, spark, html"
2, "business management, communication"
Run Code Online (Sandbox Code Playgroud)
之所以半结构化是因为只能从580个唯一值的列表中选择以下技能。
我的目标是聚集用户,或根据相似的技能组找到相似的用户。我尝试使用Word2Vec模型,该模型为识别相似的技能组提供了很好的结果-例如。
model.most_similar(["Data Science"])
Run Code Online (Sandbox Code Playgroud)
给我 -
[('Data Mining', 0.9249375462532043),
('Data Visualization', 0.9111810922622681),
('Big Data', 0.8253220319747925),...
Run Code Online (Sandbox Code Playgroud)
这为我提供了一个很好的模型,用于识别个人技能而不是技能组。如何利用Word2Vec模型提供的向量来成功地对相似用户的组进行聚类?
data-mining ×10
algorithm ×3
nlp ×2
computation ×1
gps ×1
k-means ×1
pearson ×1
perl ×1
photo ×1
postgresql ×1
python ×1
r ×1
sample-data ×1
text-mining ×1
weka ×1
word2vec ×1