小编Bet*_*eta的帖子

独立模式下的 Spark 并行性

我正在尝试在我的系统中以独立模式运行 Spark。我的系统当前规格是8核和32GB内存。根据这篇文章,我计算 Spark 配置如下:

spark.driver.memory 2g
spark.executor.cores 3
spark.executor.instances 2
spark.executor.memory 20g
maximizeResourceAllocation TRUE
Run Code Online (Sandbox Code Playgroud)

我在我的 jupyter 笔记本中创建了 Spark 上下文,如下所示,并通过此检查并行度级别

sc = SparkContext()
sc.defaultParallelism
Run Code Online (Sandbox Code Playgroud)

默认并行度为 8。我的问题是,为什么它给我 8,即使我提到了 2 个核心?如果它没有给我系统的实际并行度,那么如何获得实际的并行度?

谢谢你!

apache-spark pyspark databricks

9
推荐指数
1
解决办法
7049
查看次数

使用Hiveql循环

我正在尝试合并2个数据集,例如A和B.数据集A有一个变量"Flag",它取2个值.我试图根据"flag"变量合并2个数据集,而不是将两个数据合并在一起.

合并代码如下:

create table new_data as
select a.*,b.y
from A as a left join B as b
on a.x=b.x
Run Code Online (Sandbox Code Playgroud)

由于我通过CLI运行Hive代码,我通过以下命令调用它

hive -f new_data.hql
Run Code Online (Sandbox Code Playgroud)

我正在调用基于"Flag"变量合并数据的代码的循环部分如下:

for flag in 1 2;
do
  hive -hivevar flag=$flag -f new_data.hql
done
Run Code Online (Sandbox Code Playgroud)

我将上面的代码放在另一个".hql"文件中,因为它调用它:

hive -f loop_data.hql
Run Code Online (Sandbox Code Playgroud)

但这是错误的投掷.

无法识别'for''flag''附近的输入''

任何人都可以告诉我我在哪里弄错了.

谢谢!

hive hiveql

6
推荐指数
1
解决办法
2万
查看次数

R:我进行了聚类分析 - 如何将组分类添加到原始数据中?

我支持4个变量(x,y,z,r)和10个障碍物.我在R中运行聚类分析并获得适当的2个聚类.现在我想把这些集群对应于数据.因此该表将如下所示:

Respondent x,y,z,r cluster
1
2
3
.
.
10
Run Code Online (Sandbox Code Playgroud)

有人可以告诉我获取此表的代码.我用于聚类分析的代码如下:

##Scaling
cluster1=scale(cluster)
###Hierarchial Cluster
cluster1=dist(cluster,method="euclidean")
summary(cluster1)
cluster2=hclust(cluster1,method="ward")
plot(cluster2)
Run Code Online (Sandbox Code Playgroud)

谢谢

r cluster-analysis

4
推荐指数
1
解决办法
1769
查看次数

在Logistic回归中排序

在逻辑回归中,SAS可以选择使用"降序"选项来模拟1而不是0.R中有什么方法,我们可以做同样的事情吗?

我正在使用的代码如下:

glm(y~x1+x2+x3, family=binomial(link="logit"), na.action=na.pass)
Run Code Online (Sandbox Code Playgroud)

此致,Ari

r

4
推荐指数
1
解决办法
782
查看次数

找到日期差异

我有以下数据:

ID GROUP     DATE 
A   GR1   12/01/2013
A   GR1   09/04/2014
A   GR1   01/03/2015
A   GR2   04/04/2015
A   GR2   08/21/2015
A   GR1   01/05/2016
A   GR1   06/28/2016
B   GR2   11/01/2013
B   GR2   06/04/2014
B   GR2   04/15/2015
B   GR3   11/04/2015
B   GR2   03/21/2016
B   GR2   07/05/2016
B   GR1   06/28/2016
C   GR2   01/16/2014
C   GR2   06/04/2014
C   GR2   04/15/2015
C   GR3   11/04/2015
C   GR2   03/21/2016
C   GR2   06/05/2016
C   GR1   06/28/2016
Run Code Online (Sandbox Code Playgroud)

我希望每个小组中的人保持不同.所以新表将如下所示:

ID GROUP     DATE      Diff
A   GR1   12/01/2013
A   GR1   09/04/2014
A   GR1 …
Run Code Online (Sandbox Code Playgroud)

r sas

4
推荐指数
2
解决办法
139
查看次数

使用NetworkX读取图形数据的文本文件

我对networkX很新.所以在非常基本的事情上有问题.

我在文本文件中使用以下格式的网络数据:

InNode  OutNode

 N1       N5
 N2       N4
 N3       N6
 N2       N2
 N4       N7
Run Code Online (Sandbox Code Playgroud)

我的问题如下:

1)如何使用networkX读取数据,以便我可以获得图形之间的节点和边缘?

2)如何计算网络的自我边缘(N2,N2)?

我尝试了以下代码.但它没有给我正确的答案.

import matplotlib
import networkx as net
import urllib
import csv


g = net.Graph()

f1 = csv.reader(open("data.txt","rb"))

for row in f1: 
    g.add_nodes_from(row)

len(g)

g.number_of_nodes()
Run Code Online (Sandbox Code Playgroud)

graph networkx

4
推荐指数
1
解决办法
3983
查看次数

将因子分数添加到原始数据集

我运行因子分析并生成了5个因子.现在,我想在原始数据集中添加这些因子以运行回归,使用自变量保持这些因子.谁能告诉我怎么做怎么办?我用于因子分析的代码如下:

result.1<-subset(result,select=c(17:27))
fa.parallel(result.1)
View(result.1)
result.2<-factanal(result.1,factors=5,rotation="promax")
print(result.2)
print(result.2, digits = 2, cutoff = .2, sort = TRUE)
colnames(result.2$loadings)<-c("Fac_1","Fac_2","Fac_3","Fac_4","Fac_5")
print(loadings(result.2), digits = 2, cutoff = .2, sort = TRUE)
Run Code Online (Sandbox Code Playgroud)

我试图用来cbind获取新的变量因子列,但不幸的是它没有用.

result.fac<-cbind(result,result.2)
Run Code Online (Sandbox Code Playgroud)

此致,Ari

r

3
推荐指数
1
解决办法
7399
查看次数

在R中创建类似SAS的库

在SAS中有一种创建库的方法(使用LIBNAME).这很有用,因为当我们必须进行长数据处理时,我们不会始终更改数据集名称.因此,如果我们想要再次使用数据集而不更改名称,我们可以放入库中.因此,即使数据集名称相同,但由于它们位于不同的库中,我们可以一起处理它们.

我的问题是R中是否有任何可以创建库(或R中的单独文件夹)的选项,以便我们可以在那里保存数据?

这是一个例子:

假设我有一个数据集"dat1".我总结了var1中dat1 var1和var2中的变量.

proc summary data=dat1 nway missing;
  var var1 var2;
  class var3;
  output out=tmp.dat1 (drop = _freq_ _type_) sum = ;
  run;
Run Code Online (Sandbox Code Playgroud)

然后我将dat1与dat2合并,这是另一个数据集.dat1和dat2都有公共变量var3,我合并了它.我再次创建了新的数据集dat1.

proc sql;
   create table dat1 as
   select a.*,b.*
   from dat1 a left join tmp.dat2 b
   on a.var3=b.var3;
  quit;
Run Code Online (Sandbox Code Playgroud)

现在,我再次在合并后总结数据集dat1,以检查var1和var 2的值在合并之前和之后是否保持不变.

proc summary data=dat1 nway missing;
  var var1 var2;
  class var3;
  output out=tmp1.dat1 (drop = _freq_ _type_) sum = ;
  run;
Run Code Online (Sandbox Code Playgroud)

R中的等效代码将是

dat3<-ddply(dat1,.(var3),summarise,var1=sum(var1,na.rm=TRUE),var2=sum(var2,na.rm=TRUE))

dat1<-sqldf("select a.*,b.* from dat1 a left join dat2 b on a.var3=b.var3")

dat4<-ddply(dat1,.(var3),summarise,var1=sum(var1,na.rm=TRUE),var2=sum(var2,na.rm=TRUE)) …
Run Code Online (Sandbox Code Playgroud)

r sas

3
推荐指数
2
解决办法
1793
查看次数

使用SAS将SAS数据导出到FTP

我想将SAS数据集从SAS导出到FTP.我可以使用以下命令导出csv文件(或txt文件):

%macro export_to_ftp(dsn= ,outfile_name= );

Filename MyFTP ftp "&outfile_name." 
HOST='ftp.site.com'
                 cd= "&DATA_STRM/QC" 
                  USER=&ftp_user.
                  PASS=&ftp_pass.;

PROC EXPORT DATA= &dsn. OUTFILE= MyFTP DBMS=%SCAN(&outfile_name.,2,.) REPLACE; 
RUN; filename MyFTP clear;
%mend;

%export_to_ftp(dsn=lib1.dataset ,outfile_name=dataset.csv);
Run Code Online (Sandbox Code Playgroud)

但无法使用它来导出SAS数据集.任何人都可以帮助我.

谢谢!

sas

3
推荐指数
1
解决办法
5510
查看次数

有条件地删除行

我有一个超过100,000行的数据集,超过100列,其中有一些值NULL.现在我想删除包含NULL值的所有行.

任何人都可以为它建议sql命令吗?

sql

2
推荐指数
2
解决办法
1万
查看次数

标签 统计

r ×5

sas ×3

apache-spark ×1

cluster-analysis ×1

databricks ×1

graph ×1

hive ×1

hiveql ×1

networkx ×1

pyspark ×1

sql ×1