小编Fra*_* B.的帖子

根据其他列中的条件更新一列中的值

如果我的数据框(df)如下所示:

Name        State
John Smith  MI
John Smith  WI
Jeff Smith  WI

Run Code Online (Sandbox Code Playgroud)

我想从WI"John Smith1"重命名John Smith.什么是SQL语句中最干净的R等价物？

update df 
set Name = "John Smith1"
where Name = "John Smith"
and State = "WI"

Run Code Online (Sandbox Code Playgroud)

Fra*_* B.

2018 01-22

21
推荐指数

2
解决办法

5万
查看次数

Spark EC2 SSH连接错误SSH返回码255

每次我尝试通过Spark ec2/spark_ec2.py文件在AWS上启动Spark集群时,我都会收到SSH连接错误,最终会得到解决但浪费了大量时间.

在你将它标记为重复之前我知道有很多类似的问题,但有两个关键的区别:a)我的连接总是完成(最终)我最终得到一个健康的Spark集群和b)"答案"其他问题通常集中在以前的Spark版本(例如,1.2,1.3等).我一直经历过这个问题,可以追溯到12个月之前,从1.3到今天的1.6.1.

提前致谢!

终端输出:

Launched master in us-east-1e, regid = r-a1b2c3d4
Waiting for AWS to propagate instance metadata...
Waiting for cluster to enter 'ssh-ready' state...........

Warning: SSH connection error. (This could be temporary.)
Host: ec2-xx-xx-xx-xxx.compute-1.amazonaws.com
SSH return code: 255
SSH output: ssh: connect to host ec2-xx-xx-xx-xxx.compute-1.amazonaws.com port 22: Connection refused

.

Warning: SSH connection error. (This could be temporary.)
Host: ec2-xx-xx-xx-xxx.compute-1.amazonaws.com
SSH return code: 255
SSH output: ssh: connect to host ec2-xx-xx-xx-xxx.compute-1.amazonaws.com port 22: Connection …

Run Code Online (Sandbox Code Playgroud)

ssh amazon-ec2 apache-spark

Fra*_* B.

lucky-day

13
推荐指数

1
解决办法

1539
查看次数

geom_density_ridges 需要以下缺失的美学：y

无论我尝试什么，我都无法使用ggridges. 使用graphing_dataframe如下所示的数据框：

str(graphing_dataframe)
summary(graphing_dataframe)

> str(graphing_dataframe)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   14 obs. of  3 variables:
 $ id    : chr  "00343" "00343" "00343" "00343" ...
 $ week  : num  14 1 2 3 4 5 6 7 8 9 ...
 $ rating: num  14 4 12 8 14 19 16 16 7 8 ...
 - attr(*, "spec")=
  .. cols(
  ..   id = col_character(),
  ..   week = col_double(),
  ..   rating = col_double()
  .. )
> summary(graphing_dataframe)
      id …

Run Code Online (Sandbox Code Playgroud)

r ggplot2 ggridges ridgeline-plot

Fra*_* B.

2020 07-19

12
推荐指数

4
解决办法

1万
查看次数

如何在EC2上启动Spark 2.0

随着Spark 2.0的发布,他们已经删除了在AWS上启动Spark EC2集群的原生支持:

https://spark.apache.org/releases/spark-release-2-0-0.html#removals-behavior-changes-and-deprecations

Spark EC2脚本已完全移至UC Berkeley AMPLab托管的外部存储库

在AMPLab GitHub页面上,它包含以下说明:

https://github.com/amplab/spark-ec2/tree/branch-2.0#launching-a-cluster

进入您下载的Apache Spark发行版中的ec2目录.

问题是2.0下载中没有ec2文件夹.有谁知道如何在EC2中启动Spark 2.0集群？

提前致谢.

amazon-ec2 amazon-web-services apache-spark

Fra*_* B.

lucky-day

10
推荐指数

2
解决办法

7204
查看次数

R - 将文本中的分数转换为数字

我试图将'9¼''转换为'9.25',但似乎无法正确读取分数.

这是我正在使用的数据:

library(XML)

url <- paste("http://mockdraftable.com/players/2014/", sep = "")  
combine <- readHTMLTable(url,which=1, header=FALSE, stringsAsFactors=F)

names(combine) <- c("Name", "Pos", "Hght", "Wght", "Arms", "Hands",
                    "Dash40yd", "Dash20yd", "Dash10yd", "Bench", "Vert", "Broad", 
                    "Cone3", "ShortShuttle20")

Run Code Online (Sandbox Code Playgroud)

例如,第一行中的Hands列是'9¼'',我将如何组合$ Hands变为9.25？对于所有其他分数1/8 - 7/8也是如此.

任何帮助,将不胜感激.

string r

Fra*_* B.

lucky-day

7
推荐指数

1
解决办法

1101
查看次数

spark.driver.extraClassPath多个罐子

我正在尝试使用Spark通过Python在同一会话中访问(通过JDBC)PostGres数据库和MSSQL数据库.在spark-defaults.conf文件中,我可以让一个或另一个工作但不能同时工作.

这两个独立工作:

spark.driver.extraClassPath /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/postgresql-9.4.1208.jre6.jar

spark.driver.extraClassPath /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/sqljdbc4.jar

Run Code Online (Sandbox Code Playgroud)

我尝试了这三个并且都不起作用(我得到"没有合适的驱动程序"错误):

spark.driver.extraClassPath /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/

spark.driver.extraClassPath /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/postgresql-9.4.1208.jre6.jar sqljdbc4.jar

spark.driver.extraClassPath /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/postgresql-9.4.1208.jre6.jar /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/sqljdbc4.jar

Run Code Online (Sandbox Code Playgroud)

提前致谢.

jdbc apache-spark pyspark

Fra*_* B.

lucky-day

5
推荐指数

1
解决办法

9541
查看次数

将 JSON URL 转换为 R 数据帧

我在将 JSON 文件（从 API）转换为 R 中的数据框时遇到问题。一个例子是 URL http://api.fantasy.nfl.com/v1/players/stats?statType=seasonStats&season=2010&week= 1&格式=json

我尝试了 S/O 的一些不同建议，包括将 json 数据转换为 R 中的数据框和各种博客文章，例如http://zevross.com/blog/2015/02/12/using-r-to- download-and-parse-json-an-example-using-data-from-an-open-data-portal/

我最接近的是使用下面的代码，它为我提供了一个包含 4 个“行”和一堆“变量”（V1、V2 等）的大矩阵。我假设这个 JSON 文件的格式与“普通”文件的格式不同。

library(RJSONIO)

raw_data <- getURL("http://api.fantasy.nfl.com/v1/players/stats?statType=seasonStats&season=2010&week=1&format=json")

data <- fromJSON(raw_data)

final_data <- do.call(rbind, data)

Run Code Online (Sandbox Code Playgroud)

我不知道如何让它工作，所以欢迎任何 R 包/进程。提前致谢。

json r dataframe

Fra*_* B.

2017 05-23

4
推荐指数

2
解决办法

1万
查看次数

Dask get_dummies 不转换变量

我正在尝试使用get_dummiesviadask但它不会转换我的变量，也不会出错：

>>> import dask.dataframe as dd
>>> import pandas as pd
>>> df_d = dd.read_csv('/datasets/dask_example/dask_get_dummies_example.csv')
>>> df_d.head()
   uid gender
0    1      M
1    2    NaN
2    3    NaN
3    4      F
4    5    NaN
>>> daskDataCategorical = df_d[['gender']]
>>> daskDataDummies = dd.get_dummies(daskDataCategorical) 
>>> daskDataDummies.head()
  gender
0      M
1    NaN
2    NaN
3      F
4    NaN
>>> daskDataDummies.compute() 
  gender
0      M
1    NaN
2    NaN
3      F
4    NaN
5      F
6      M
7      F
8      M …

Run Code Online (Sandbox Code Playgroud)

python pandas dummy-variable dask

Fra*_* B.

lucky-day

3
推荐指数

1
解决办法

6930
查看次数

在 R 中使用 is.na 获取包含 NA 值的列名

鉴于以下示例数据集：

df <- as.data.frame(matrix( c(1, 2, 3, NA, 5, NA, 
                              7, NA, 9, 10, NA, NA), nrow=2, ncol=6))

names(df) <- c(  "varA", "varB", "varC", "varD", "varE", "varF")

print(df)

  varA varB varC varD varE varF
1    1    3    5    7    9   NA
2    2   NA   NA   NA   10   NA

Run Code Online (Sandbox Code Playgroud)

我希望能够在数据集上使用 kmeans(...) ，而无需手动检查或删除变量内任何地方包含 NA的变量。虽然我现在正在询问 kmeans(...) 我将使用类似的过程处理其他事情，因此 kmeans(...) 具体答案不会完全回答我的问题。

我想要的手动版本是：

kmeans_model <- kmeans(df[, -c(2:4, 6)], 10)

Run Code Online (Sandbox Code Playgroud)

伪代码将是：

kmeans_model <- kmeans(df[, -c(colnames(is.na(df)))], 10)

Run Code Online (Sandbox Code Playgroud)

另外，我不想从 df 中删除数据。提前致谢。

（显然 kmeans(...) 不适用于此示例数据集，但我无法重新创建真实数据集）

r missing-data na

Fra*_* B.

lucky-day

1
推荐指数

1
解决办法

9207
查看次数

标签统计

r ×5

apache-spark ×3

amazon-ec2 ×2

amazon-web-services ×1

dask ×1

dataframe ×1

dummy-variable ×1

ggplot2 ×1

ggridges ×1

jdbc ×1

json ×1

missing-data ×1

na ×1

pandas ×1

pyspark ×1

python ×1

ridgeline-plot ×1

ssh ×1

string ×1

标签 统计

小编Fra_ B.的帖子

标签统计