小编Ha *_*ham的帖子

无法在Mac OS启动时加载postgresql

我已经安装了postgresqlvia HomeBrew.它工作但今天我发现postgresql计算机启动时服务器不运行.

我尝试使用launchctl以下命令再次加载它:

$ launchctl load ~/Library/LaunchAgents/homebrew.mxcl.postgresql.plist

Run Code Online (Sandbox Code Playgroud)

我看到了这样的信息:

/usr/local/Cellar/postgresql/9.3.4/homebrew.mxcl.postgresql.plist: Service is disabled

Run Code Online (Sandbox Code Playgroud)

我不知道如何启用postgresql服务.有人能告诉我吗？

postgresql macos service launchd postgresql-9.3

Ha *_*ham

lucky-day

39
推荐指数

2
解决办法

1万
查看次数

如何为apache spark worker更改每个节点的内存

我正在配置Apache Spark集群.

当我使用1个主服务器和3个从服务器运行集群时,我在主监视器页面上看到了这一点:

Memory
2.0 GB (512.0 MB Used)
2.0 GB (512.0 MB Used)
6.0 GB (512.0 MB Used)

Run Code Online (Sandbox Code Playgroud)

我想为工作人员增加使用的内存,但我找不到合适的配置.我已将spark-env.sh更改为如下:

export SPARK_WORKER_MEMORY=6g
export SPARK_MEM=6g
export SPARK_DAEMON_MEMORY=6g
export SPARK_JAVA_OPTS="-Dspark.executor.memory=6g"
export JAVA_OPTS="-Xms6G -Xmx6G"

Run Code Online (Sandbox Code Playgroud)

但是用过的内存仍然是一样的.我该怎么做才能改变用过的内存？

memory config cluster-computing apache-spark

Ha *_*ham

2014 06-17

33
推荐指数

4
解决办法

3万
查看次数

如何使用Zookeeper为HA设置Spark？

我想配置Apache spark master来连接Zookeeper

我已经安装了它们并运行Zookeeper.

在spark-env.sh中,我添加了2行:

-Dspark.deploy.recoveryMode=ZOOKEEPER

-Dspark.deploy.zookeeper.url=localhost:2181

Run Code Online (Sandbox Code Playgroud)

但是当我使用./sbin/start-all.sh启动Apache spark时

它显示错误

/home/deploy/spark-1.0.0/sbin/../conf/spark-env.sh: line 46: -Dspark.deploy.recoveryMode=ZOOKEEPER: command not found

/home/deploy/spark-1.0.0/sbin/../conf/spark-env.sh: line 47: -Dspark.deploy.zookeeper.url=localhost:2181: command not found

Run Code Online (Sandbox Code Playgroud)

我想知道如何在spark-env.sh上添加Zookeeper设置

apache-spark apache-zookeeper

Ha *_*ham

2015 10-23

11
推荐指数

1
解决办法

6167
查看次数

如何使用带有公式的dcast.data.table作为字符串

我想使用强制转换为data.table,其公式名称为列字符串

我的桌子:

c1    c2    c3
1     A     1
1     B     2
1     C     3
2     A1    1
2     B1    2
2     C1    3

Run Code Online (Sandbox Code Playgroud)

我想得到结果:

c1    1    2    3
1     A    B    C
2     A1   B1   C1

Run Code Online (Sandbox Code Playgroud)

我可以用命令做到这一点

dcast.data.table(dt, c1 ~ c3, value.var = "c2")

但我想在一个函数中运行dcast,该函数具有c1列名称的参数作为字符串.例如

f1 <- function(d, col_name1, col_name2, col_name3) {
  dcast.data.table(d, col_name1 ~ col_name3, value.var = col_name2)
}

Run Code Online (Sandbox Code Playgroud)

所以我打电话

f1(dt, "c1", "c2", "c3")

Run Code Online (Sandbox Code Playgroud)

希望有人可以帮忙!

r reshape data.table

Ha *_*ham

2017 09-27

7
推荐指数

1
解决办法

2414
查看次数

从Postgresql将大数据加载到R data.table

我将我的数据存储在Postgresql服务器中.我想加载一个有15mil行的表data.frame或data.table

我RPostgreSQL用来加载数据.

library(RPostgreSQL)
drv <- dbDriver("PostgreSQL")
con <- dbConnect(drv, ...)

# Select data from a table
system.time(
df <- dbGetQuery(con, "SELECT * FROM 15mil_rows_table")
)

Run Code Online (Sandbox Code Playgroud)

将数据从DB加载到df 需要20分钟.我使用谷歌云服务器,它有60GB RAM和16核CPU

我该怎么做才能减少加载时间？

postgresql r dataframe data.table

Ha *_*ham

2016 08-15

5
推荐指数

1
解决办法

1672
查看次数

在CHD5.4.1 NoClassDefFoundError上运行spark SQL

设置我CHD5.4.1跑一些测试Spark SQL上Spark.Spark运行良好,但Spark SQL存在一些问题.

我从pyspark下面开始:

/opt/cloudera/parcels/CDH-5.4.1-1.cdh5.4.1.p0.6/lib/spark/bin/pyspark --master yarn-client

我想Hive用Spark SQL 选择一个表: results = sqlCtx.sql("SELECT * FROM my_table").collect()

它打印错误日志:http://pastebin.com/u98psBG8

> Welcome to
>       ____              __
>      / __/__  ___ _____/ /__
>     _\ \/ _ \/ _ `/ __/  '_/    /__ / .__/\_,_/_/ /_/\_\   version 1.3.0
>       /_/
> 
> Using Python version 2.7.6 (default, Mar 22 2014 22:59:56)
> SparkContext available as sc, HiveContext available as sqlCtx.
> …

Run Code Online (Sandbox Code Playgroud)

hive apache-spark apache-spark-sql pyspark

Ha *_*ham

lucky-day

5
推荐指数

1
解决办法

6529
查看次数

R 中的 data.table 中的 Group by 只保留列中的非 NA 值

我是 R 新手。

我想按 data.table 进行分组并仅保留列中的非 NA 值。

我的桌子是这样的：

c1   c2   c3   c4
1    A    NA   NA
1    NA   B    NA
1    NA   NA   C
2    A1   NA   NA
2    NA   B1   NA
2    NA   NA   C1

Run Code Online (Sandbox Code Playgroud)

我想要一个结果：

c1   c2   c3   c4
1    A    B    C
2    A1   B1   C1

Run Code Online (Sandbox Code Playgroud)

希望任何人都可以提供帮助！

group-by r data.table

Ha *_*ham

lucky-day

4
推荐指数

1
解决办法

1315
查看次数

R data.table创建虚拟列,用于映射已存在的列

我想创建一个虚拟numeric列,用现有character列映射1-1 以运行correlation

我的表看起来像:

Code
US
UK
VN
US
VN
UK

Run Code Online (Sandbox Code Playgroud)

我想要新的列dummy映射US, UK, VN到1, 2, 3

Code     dummy
US       1
UK       2
VN       3
US       1
VN       3
UK       2

Run Code Online (Sandbox Code Playgroud)

希望有人可以帮忙!

r correlation data.table

Ha *_*ham

lucky-day

3
推荐指数

1
解决办法

493
查看次数

Spark 缓存 RDD 未显示在 Spark 历史记录 WebUI 上 - 存储

我正在使用Spark-1.4.1中CDH-5.4.4。

我使用rdd.cache()函数，但它没有显示任何Storage tab内容Spark History WebUI

有人有同样的问题吗？如何修复它？

apache-spark cloudera-cdh rdd

Ha *_*ham

lucky-day

2
推荐指数

2
解决办法

3033
查看次数

Spark 1.5.0 spark.app.id警告

我已经更新了要使用的CDH群集spark 1.5.0.当我提交spark应用程序时,系统会显示警告spark.app.id

Using default name DAGScheduler for source because spark.app.id is not set.

Run Code Online (Sandbox Code Playgroud)

我搜索过spark.app.id但没有关于它的文档.我读了这个链接,我认为它用于RestAPI调用.

我没有看到这个警告spark 1.4.有人可以向我解释并说明如何设置它吗？

apache-spark apache-spark-1.5

Ha *_*ham

lucky-day

1
推荐指数

1
解决办法

2957
查看次数

标签统计

apache-spark ×5

data.table ×4

r ×4

postgresql ×2

cloudera-cdh ×1

config ×1

correlation ×1

dataframe ×1

group-by ×1

hive ×1

launchd ×1

macos ×1

memory ×1

postgresql-9.3 ×1

pyspark ×1

rdd ×1

reshape ×1

service ×1

标签 统计

小编Ha _ham的帖子

标签统计