小编Ha *_*ham的帖子

无法在Mac OS启动时加载postgresql

我已经安装了postgresqlvia HomeBrew.它工作但今天我发现postgresql计算机启动时服务器不运行.

我尝试使用launchctl以下命令再次加载它:

$ launchctl load ~/Library/LaunchAgents/homebrew.mxcl.postgresql.plist
Run Code Online (Sandbox Code Playgroud)

我看到了这样的信息:

/usr/local/Cellar/postgresql/9.3.4/homebrew.mxcl.postgresql.plist: Service is disabled
Run Code Online (Sandbox Code Playgroud)

我不知道如何启用postgresql服务.有人能告诉我吗?

postgresql macos service launchd postgresql-9.3

39
推荐指数
2
解决办法
1万
查看次数

如何为apache spark worker更改每个节点的内存

我正在配置Apache Spark集群.

当我使用1个主服务器和3个从服务器运行集群时,我在主监视器页面上看到了这一点:

Memory
2.0 GB (512.0 MB Used)
2.0 GB (512.0 MB Used)
6.0 GB (512.0 MB Used)
Run Code Online (Sandbox Code Playgroud)

我想为工作人员增加使用的内存,但我找不到合适的配置.我已将spark-env.sh更改为如下:

export SPARK_WORKER_MEMORY=6g
export SPARK_MEM=6g
export SPARK_DAEMON_MEMORY=6g
export SPARK_JAVA_OPTS="-Dspark.executor.memory=6g"
export JAVA_OPTS="-Xms6G -Xmx6G"
Run Code Online (Sandbox Code Playgroud)

但是用过的内存仍然是一样的.我该怎么做才能改变用过的内存?

memory config cluster-computing apache-spark

33
推荐指数
4
解决办法
3万
查看次数

如何使用Zookeeper为HA设置Spark?

我想配置Apache spark master来连接Zookeeper

我已经安装了它们并运行Zookeeper.

spark-env.sh中,我添加了2行:

-Dspark.deploy.recoveryMode=ZOOKEEPER

-Dspark.deploy.zookeeper.url=localhost:2181
Run Code Online (Sandbox Code Playgroud)

但是当我使用./sbin/start-all.sh启动Apache spark

它显示错误

/home/deploy/spark-1.0.0/sbin/../conf/spark-env.sh: line 46: -Dspark.deploy.recoveryMode=ZOOKEEPER: command not found

/home/deploy/spark-1.0.0/sbin/../conf/spark-env.sh: line 47: -Dspark.deploy.zookeeper.url=localhost:2181: command not found
Run Code Online (Sandbox Code Playgroud)

我想知道如何在spark-env.sh上添加Zookeeper设置

apache-spark apache-zookeeper

11
推荐指数
1
解决办法
6167
查看次数

如何使用带有公式的dcast.data.table作为字符串

我想使用强制转换为data.table,其公式名称为列字符串

我的桌子:

c1    c2    c3
1     A     1
1     B     2
1     C     3
2     A1    1
2     B1    2
2     C1    3
Run Code Online (Sandbox Code Playgroud)

我想得到结果:

c1    1    2    3
1     A    B    C
2     A1   B1   C1
Run Code Online (Sandbox Code Playgroud)

我可以用命令做到这一点

dcast.data.table(dt, c1 ~ c3, value.var = "c2")

但我想在一个函数中运行dcast,该函数具有c1列名称的参数作为字符串.例如

f1 <- function(d, col_name1, col_name2, col_name3) {
  dcast.data.table(d, col_name1 ~ col_name3, value.var = col_name2)
}
Run Code Online (Sandbox Code Playgroud)

所以我打电话

f1(dt, "c1", "c2", "c3")
Run Code Online (Sandbox Code Playgroud)

希望有人可以帮忙!

r reshape data.table

7
推荐指数
1
解决办法
2414
查看次数

从Postgresql将大数据加载到R data.table

我将我的数据存储在Postgresql服务器中.我想加载一个有15mil行的表data.framedata.table

RPostgreSQL用来加载数据.

library(RPostgreSQL)
drv <- dbDriver("PostgreSQL")
con <- dbConnect(drv, ...)

# Select data from a table
system.time(
df <- dbGetQuery(con, "SELECT * FROM 15mil_rows_table")
)
Run Code Online (Sandbox Code Playgroud)

将数据从DB加载到df 需要20分钟.我使用谷歌云服务器,它有60GB RAM和16核CPU

我该怎么做才能减少加载时间?

postgresql r dataframe data.table

5
推荐指数
1
解决办法
1672
查看次数

在CHD5.4.1 NoClassDefFoundError上运行spark SQL

设置我CHD5.4.1跑一些测试Spark SQLSpark.Spark运行良好,但Spark SQL存在一些问题.

我从pyspark下面开始:

/opt/cloudera/parcels/CDH-5.4.1-1.cdh5.4.1.p0.6/lib/spark/bin/pyspark --master yarn-client

我想Hive用Spark SQL 选择一个表: results = sqlCtx.sql("SELECT * FROM my_table").collect()

它打印错误日志:http://pastebin.com/u98psBG8

> Welcome to
>       ____              __
>      / __/__  ___ _____/ /__
>     _\ \/ _ \/ _ `/ __/  '_/    /__ / .__/\_,_/_/ /_/\_\   version 1.3.0
>       /_/
> 
> Using Python version 2.7.6 (default, Mar 22 2014 22:59:56)
> SparkContext available as sc, HiveContext available as sqlCtx.
> …
Run Code Online (Sandbox Code Playgroud)

hive apache-spark apache-spark-sql pyspark

5
推荐指数
1
解决办法
6529
查看次数

R 中的 data.table 中的 Group by 只保留列中的非 NA 值

我是 R 新手。

我想按 data.table 进行分组并仅保留列中的非 NA 值。

我的桌子是这样的:

c1   c2   c3   c4
1    A    NA   NA
1    NA   B    NA
1    NA   NA   C
2    A1   NA   NA
2    NA   B1   NA
2    NA   NA   C1
Run Code Online (Sandbox Code Playgroud)

我想要一个结果:

c1   c2   c3   c4
1    A    B    C
2    A1   B1   C1
Run Code Online (Sandbox Code Playgroud)

希望任何人都可以提供帮助!

group-by r data.table

4
推荐指数
1
解决办法
1315
查看次数

R data.table创建虚拟列,用于映射已存在的列

我想创建一个虚拟numeric列,用现有character列映射1-1 以运行correlation

我的表看起来像:

Code
US
UK
VN
US
VN
UK
Run Code Online (Sandbox Code Playgroud)

我想要新的列dummy映射US, UK, VN1, 2, 3

Code     dummy
US       1
UK       2
VN       3
US       1
VN       3
UK       2
Run Code Online (Sandbox Code Playgroud)

希望有人可以帮忙!

r correlation data.table

3
推荐指数
1
解决办法
493
查看次数

Spark 缓存 RDD 未显示在 Spark 历史记录 WebUI 上 - 存储

我正在使用Spark-1.4.1CDH-5.4.4

我使用rdd.cache()函数,但它没有显示任何Storage tab内容Spark History WebUI

有人有同样的问题吗?如何修复它?

apache-spark cloudera-cdh rdd

2
推荐指数
2
解决办法
3033
查看次数

Spark 1.5.0 spark.app.id警告

我已经更新了要使用的CDH群集spark 1.5.0.当我提交spark应用程序时,系统会显示警告spark.app.id

Using default name DAGScheduler for source because spark.app.id is not set.
Run Code Online (Sandbox Code Playgroud)

我搜索过spark.app.id但没有关于它的文档.我读了这个链接,我认为它用于RestAPI调用.

我没有看到这个警告spark 1.4.有人可以向我解释并说明如何设置它吗?

apache-spark apache-spark-1.5

1
推荐指数
1
解决办法
2957
查看次数