我计划开发一个基于Web的应用程序,它可以抓取维基百科来查找关系并将其存储在数据库中.通过关系,我的意思是搜索一个名字,比如'比尔盖茨'并找到他的页面,下载它并从页面中提取各种信息并将其存储在数据库中.信息可能包括他的出生日期,他的公司和其他一些事情.但我需要知道是否有任何方法可以从页面中找到这些唯一数据,以便我可以将它们存储在数据库中.任何特定的书籍或算法将不胜感激.还提到好的开源库会很有帮助.
谢谢
我正在处理一个在数据中有一些明显错误的数据集(即,1岁以下且信用卡余额为50,000美元的孩子).我不能一行一行地设置为> 100k行.有没有正式的工作如何在数据集中搜索这些类型的明显问题,甚至更好的R中的任何包?或者我应该开始做直方图?
我有两个脚本都在R中生成随机森林,据我所知,它们具有相同的输入,尽管我的问题表明情况并非如此。其中一个返回包含以下内容的重要性表
row.names importance.blue importance.red importance.MeanDecreaseAccuracy importance.MeanDecreaseGini
其他重要性表仅包含
row.names MeanDecreaseGini
Run Code Online (Sandbox Code Playgroud)
这两个森林之间的区别是什么?更重要的是,鉴于我认为相同的输入,是什么引起了差异?
(脚本太大了,无法在此处粘贴,但是两个脚本都试图根据一系列连续变量来预测一个因素)
我在尝试使用WEKA连接MySQL数据库时遇到了JDBC连接问题.
这是我的DatabaseUtils.properties文件:
jdbcDriver=com.mysql.jdbc.Driver
jdbcURL=jdbc:mysql://localhost:3306/mydb
Run Code Online (Sandbox Code Playgroud)
我在路径中添加了jdbc-mysql jar:
/opt/SenchaSDKTools-2.0.0-beta3:/usr/lib/lightdm/lightdm:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/home/talha/apache-maven-3.0.4/bin:/home/talha/mysql-connector-java-5.1.20.jar:/opt/SenchaSDKTools-2.0.0-beta3:/home/talha/apache-maven-3.0.4/bin:/usr/lib/jvm/jdk1.7.0_05/bin:/home/talha/apache-maven-3.0.4/bin
Run Code Online (Sandbox Code Playgroud)
Java类[一个简单的测试类]
public class Test {
public static void main(String[] args) throws Exception {
InstanceQuery query = new InstanceQuery();
query.setUsername("username");
query.setPassword("password");
String sql = "select * from user";
query.setQuery(sql);
// if your data is sparse, then you can say so too
// query.setSparseData(true);
Instances data = query.retrieveInstances();
}
}
Run Code Online (Sandbox Code Playgroud)
完整的堆栈跟踪:
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Error, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Error, not …Run Code Online (Sandbox Code Playgroud) 我有五个要点,我需要根据这些要点创建树状图。可以使用“树状图”功能来找到这些点的顺序,如下所示。但是,我不想使用树状图,因为它速度慢并且会导致大量点出错(我在这里用Python替代的方法来查找树状图)问这个问题。有人可以指出我如何将“链接”输出(Z)转换为“树状图(Z)['ivl']”值。
>>> from hcluster import pdist, linkage, dendrogram
>>> import numpy
>>> from numpy.random import rand
>>> x = rand(5,3)
>>> Y = pdist(x)
>>> Z = linkage(Y)
>>> Z
array([[ 1. , 3. , 0.11443378, 2. ],
[ 0. , 4. , 0.47941843, 2. ],
[ 5. , 6. , 0.67596472, 4. ],
[ 2. , 7. , 0.79993986, 5. ]])
>>>
>>> dendrogram(Z)['ivl']
['2', '1', '3', '0', '4']
>>>
Run Code Online (Sandbox Code Playgroud) 我是R.的新手.我正在尝试在大约50K项目上运行hclust().我有10列要比较和50K行数据.当我尝试分配距离矩阵时,我得到:"无法分配5GB的矢量".
这有尺寸限制吗?如果是这样,我该如何做一个这么大的东西?
编辑
我最终增加了max.limit并将机器的内存增加到8GB,这似乎已经修复了它.
我已经在一个410k行的大型数据集上实现了Naive Bayes算法.现在我的所有记录都被正确分类,但事情是程序花了差不多一小时将记录写入相应的文件.什么是改进的最佳方法我的代码的性能.这是下面的代码.这段代码是将410k记录写入相应的文件.谢谢.
fp=fopen("sales_ok_fraud.txt","r");
while(fgets(line,80,fp)!=NULL) //Reading each line from file to calculate the file size.
{
token = strtok(line,",");
token = strtok(NULL,",");
token = strtok(NULL,",");
token = strtok(NULL,",");
token = strtok(NULL,",");
token = strtok(NULL,",");
token1 = strtok(token,"\n");
memcpy(mystr,&token1[0],strlen(token1)-1);
mystr[strlen(token1)-1] = '\0';
if( strcmp(mystr,"ok") == 0 )
counter_ok++;
else
counter_fraud++;
}
printf("The no. of records with OK label are %f\n",counter_ok);
printf("The no. of records with FRAUD label are %f\n",counter_fraud);
prblty_ok = counter_ok/(counter_ok+counter_fraud);
prblty_fraud = counter_fraud/(counter_ok+counter_fraud);
printf("The probability of OK records is %f\n",prblty_ok); …Run Code Online (Sandbox Code Playgroud) 该WEKA SimpleKMeans实现允许用户指定一个"种子值"与-s选项.我不明白它的意思.在这个链接中,weka架构师Mark Hall说它应该生成随机数.
Weka实现应该遵循关于KMenas ++的文章(如文档中所述),如果我理解了它,则使用前面提到的论文中的方程1b,第2.2页第3页来确定聚类质心点,并且没有其他来源随机性.
任何人都可以指出我错了什么?
我有一个像这样的一维列表
public class Zeit_und_Eigenschaft
{
[Feature]
public double Sekunden { get; set; }
}
//...
List<Zeit_und_Eigenschaft> lzue = new List<Zeit_und_Eigenschaft>();
//fill lzue
Run Code Online (Sandbox Code Playgroud)
lzue可以
lzue.Sekunden
1
2
3
4
8
9
10
22
55
...
Run Code Online (Sandbox Code Playgroud)
目标是在该列表中找到群集,即在此示例中可以形成像fi这样的群组的元素
lzue.Sekunden
1
2
3
4
8
9
10
22
55
Run Code Online (Sandbox Code Playgroud)
哪种聚类算法是合适的(我不知道聚类数k)?GMM?PCA?K均值?其他?
我刚刚编写了DBSCAN算法,但我想知道DBSCAN算法是否可以允许集群中的点数少于所使用的minPts参数。
我一直在使用http://people.cs.nctu.edu.tw/~rsliang/dbscan/testdatagen.html来验证我的实现,但似乎运行得很好,只是遇到了这个问题。
我正在对样本数据集进行一些模拟,并且我一直使用的minPts为3。DBSCAN算法通常会从数据集中创建2点的簇(虽然从不1)。这是设计使然还是我搞砸了实现?
一些样本数据,eps = 0.1,minPts = 3。
0.307951851891331 0.831249445598223
0.0223402371734102 0.352948855307395
0.780763753587736 0.691021379870838
0.950537940464233 0.849805725668467
0.66559538881555 0.603627873865714
0.983049284658883 0.320016804300256
0.710854941844407 0.646746252033276
0.404260418566065 0.610378857986247
0.740377815785062 0.899680181825385
0.430522446721104 0.597713506593236
0.0365937198682659 0.109160974206944
0.378702778545536 0.115744969861463
0.765229786171219 0.568206346858389
0.760991609078362 0.59582572271853
0.970256112036414 0.480310371834929
0.110018607280226 0.541528500403058
0.679553015939683 0.951676915377228
0.730563320094051 0.806108465793593
0.30542559935964 0.500680956757013
0.740971321585109 0.670210885196091
0.877572476806851 0.221948942738561
0.882196086404005 0.674841667374057
0.808923079077584 0.740714808339586
0.935197343553974 0.438659039064617
0.283511740287539 0.271373094185895
0.0740317893559261 0.602333299630477
0.30702819223843 0.0683579570932118
0.31839294653311 0.198790877684388
0.452546667052687 0.906595267311947
0.587719069136176 0.212557406729347
0.930029770792476 0.354712217745703
0.879549613632052 0.185285016980621
0.493609266585488 0.441520784255825
0.640463788360573 0.759178026467179
0.916182931939225 0.598151952772472 …Run Code Online (Sandbox Code Playgroud) data-mining ×10
r ×3
java ×2
k-means ×2
python ×2
weka ×2
c ×1
c# ×1
dbscan ×1
dendrogram ×1
hclust ×1
jdbc ×1
outliers ×1
statistics ×1
text-mining ×1
wikipedia ×1