我已经安装了postgresqlvia HomeBrew.它工作但今天我发现postgresql计算机启动时服务器不运行.
我尝试使用launchctl以下命令再次加载它:
$ launchctl load ~/Library/LaunchAgents/homebrew.mxcl.postgresql.plist
Run Code Online (Sandbox Code Playgroud)
我看到了这样的信息:
/usr/local/Cellar/postgresql/9.3.4/homebrew.mxcl.postgresql.plist: Service is disabled
Run Code Online (Sandbox Code Playgroud)
我不知道如何启用postgresql服务.有人能告诉我吗?
我正在配置Apache Spark集群.
当我使用1个主服务器和3个从服务器运行集群时,我在主监视器页面上看到了这一点:
Memory
2.0 GB (512.0 MB Used)
2.0 GB (512.0 MB Used)
6.0 GB (512.0 MB Used)
Run Code Online (Sandbox Code Playgroud)
我想为工作人员增加使用的内存,但我找不到合适的配置.我已将spark-env.sh更改为如下:
export SPARK_WORKER_MEMORY=6g
export SPARK_MEM=6g
export SPARK_DAEMON_MEMORY=6g
export SPARK_JAVA_OPTS="-Dspark.executor.memory=6g"
export JAVA_OPTS="-Xms6G -Xmx6G"
Run Code Online (Sandbox Code Playgroud)
但是用过的内存仍然是一样的.我该怎么做才能改变用过的内存?
我想配置Apache spark master来连接Zookeeper
我已经安装了它们并运行Zookeeper.
在spark-env.sh中,我添加了2行:
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=localhost:2181
Run Code Online (Sandbox Code Playgroud)
但是当我使用./sbin/start-all.sh启动Apache spark时
它显示错误
/home/deploy/spark-1.0.0/sbin/../conf/spark-env.sh: line 46: -Dspark.deploy.recoveryMode=ZOOKEEPER: command not found
/home/deploy/spark-1.0.0/sbin/../conf/spark-env.sh: line 47: -Dspark.deploy.zookeeper.url=localhost:2181: command not found
Run Code Online (Sandbox Code Playgroud)
我想知道如何在spark-env.sh上添加Zookeeper设置
我想使用强制转换为data.table,其公式名称为列字符串
我的桌子:
c1 c2 c3
1 A 1
1 B 2
1 C 3
2 A1 1
2 B1 2
2 C1 3
Run Code Online (Sandbox Code Playgroud)
我想得到结果:
c1 1 2 3
1 A B C
2 A1 B1 C1
Run Code Online (Sandbox Code Playgroud)
我可以用命令做到这一点
dcast.data.table(dt, c1 ~ c3, value.var = "c2")
但我想在一个函数中运行dcast,该函数具有c1列名称的参数作为字符串.例如
f1 <- function(d, col_name1, col_name2, col_name3) {
dcast.data.table(d, col_name1 ~ col_name3, value.var = col_name2)
}
Run Code Online (Sandbox Code Playgroud)
所以我打电话
f1(dt, "c1", "c2", "c3")
Run Code Online (Sandbox Code Playgroud)
希望有人可以帮忙!
我将我的数据存储在Postgresql服务器中.我想加载一个有15mil行的表data.frame或data.table
我RPostgreSQL用来加载数据.
library(RPostgreSQL)
drv <- dbDriver("PostgreSQL")
con <- dbConnect(drv, ...)
# Select data from a table
system.time(
df <- dbGetQuery(con, "SELECT * FROM 15mil_rows_table")
)
Run Code Online (Sandbox Code Playgroud)
将数据从DB加载到df 需要20分钟.我使用谷歌云服务器,它有60GB RAM和16核CPU
我该怎么做才能减少加载时间?
设置我CHD5.4.1跑一些测试Spark SQL上Spark.Spark运行良好,但Spark SQL存在一些问题.
我从pyspark下面开始:
/opt/cloudera/parcels/CDH-5.4.1-1.cdh5.4.1.p0.6/lib/spark/bin/pyspark --master yarn-client
我想Hive用Spark SQL 选择一个表:
results = sqlCtx.sql("SELECT * FROM my_table").collect()
它打印错误日志:http://pastebin.com/u98psBG8
> Welcome to
> ____ __
> / __/__ ___ _____/ /__
> _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.3.0
> /_/
>
> Using Python version 2.7.6 (default, Mar 22 2014 22:59:56)
> SparkContext available as sc, HiveContext available as sqlCtx.
> …Run Code Online (Sandbox Code Playgroud) 我是 R 新手。
我想按 data.table 进行分组并仅保留列中的非 NA 值。
我的桌子是这样的:
c1 c2 c3 c4
1 A NA NA
1 NA B NA
1 NA NA C
2 A1 NA NA
2 NA B1 NA
2 NA NA C1
Run Code Online (Sandbox Code Playgroud)
我想要一个结果:
c1 c2 c3 c4
1 A B C
2 A1 B1 C1
Run Code Online (Sandbox Code Playgroud)
希望任何人都可以提供帮助!
我想创建一个虚拟numeric列,用现有character列映射1-1 以运行correlation
我的表看起来像:
Code
US
UK
VN
US
VN
UK
Run Code Online (Sandbox Code Playgroud)
我想要新的列dummy映射US, UK, VN到1, 2, 3
Code dummy
US 1
UK 2
VN 3
US 1
VN 3
UK 2
Run Code Online (Sandbox Code Playgroud)
希望有人可以帮忙!
我正在使用Spark-1.4.1中CDH-5.4.4。
我使用rdd.cache()函数,但它没有显示任何Storage tab内容Spark History WebUI
有人有同样的问题吗?如何修复它?
我已经更新了要使用的CDH群集spark 1.5.0.当我提交spark应用程序时,系统会显示警告spark.app.id
Using default name DAGScheduler for source because spark.app.id is not set.
Run Code Online (Sandbox Code Playgroud)
我搜索过spark.app.id但没有关于它的文档.我读了这个链接,我认为它用于RestAPI调用.
我没有看到这个警告spark 1.4.有人可以向我解释并说明如何设置它吗?
apache-spark ×5
data.table ×4
r ×4
postgresql ×2
cloudera-cdh ×1
config ×1
correlation ×1
dataframe ×1
group-by ×1
hive ×1
launchd ×1
macos ×1
memory ×1
pyspark ×1
rdd ×1
reshape ×1
service ×1