如果我的数据框(df)如下所示:
Name State
John Smith MI
John Smith WI
Jeff Smith WI
Run Code Online (Sandbox Code Playgroud)
我想从WI"John Smith1"重命名John Smith.什么是SQL语句中最干净的R等价物?
update df
set Name = "John Smith1"
where Name = "John Smith"
and State = "WI"
Run Code Online (Sandbox Code Playgroud) 每次我尝试通过Spark ec2/spark_ec2.py文件在AWS上启动Spark集群时,我都会收到SSH连接错误,最终会得到解决但浪费了大量时间.
在你将它标记为重复之前我知道有很多类似的问题,但有两个关键的区别:a)我的连接总是完成(最终)我最终得到一个健康的Spark集群和b)"答案"其他问题通常集中在以前的Spark版本(例如,1.2,1.3等).我一直经历过这个问题,可以追溯到12个月之前,从1.3到今天的1.6.1.
提前致谢!
终端输出:
Launched master in us-east-1e, regid = r-a1b2c3d4
Waiting for AWS to propagate instance metadata...
Waiting for cluster to enter 'ssh-ready' state...........
Warning: SSH connection error. (This could be temporary.)
Host: ec2-xx-xx-xx-xxx.compute-1.amazonaws.com
SSH return code: 255
SSH output: ssh: connect to host ec2-xx-xx-xx-xxx.compute-1.amazonaws.com port 22: Connection refused
.
Warning: SSH connection error. (This could be temporary.)
Host: ec2-xx-xx-xx-xxx.compute-1.amazonaws.com
SSH return code: 255
SSH output: ssh: connect to host ec2-xx-xx-xx-xxx.compute-1.amazonaws.com port 22: Connection …Run Code Online (Sandbox Code Playgroud) 无论我尝试什么,我都无法使用ggridges. 使用graphing_dataframe如下所示的数据框:
str(graphing_dataframe)
summary(graphing_dataframe)
> str(graphing_dataframe)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 14 obs. of 3 variables:
$ id : chr "00343" "00343" "00343" "00343" ...
$ week : num 14 1 2 3 4 5 6 7 8 9 ...
$ rating: num 14 4 12 8 14 19 16 16 7 8 ...
- attr(*, "spec")=
.. cols(
.. id = col_character(),
.. week = col_double(),
.. rating = col_double()
.. )
> summary(graphing_dataframe)
id …Run Code Online (Sandbox Code Playgroud) 随着Spark 2.0的发布,他们已经删除了在AWS上启动Spark EC2集群的原生支持:
Spark EC2脚本已完全移至UC Berkeley AMPLab托管的外部存储库
在AMPLab GitHub页面上,它包含以下说明:
https://github.com/amplab/spark-ec2/tree/branch-2.0#launching-a-cluster
进入您下载的Apache Spark发行版中的ec2目录.
问题是2.0下载中没有ec2文件夹.有谁知道如何在EC2中启动Spark 2.0集群?
提前致谢.
我试图将'9¼''转换为'9.25',但似乎无法正确读取分数.
这是我正在使用的数据:
library(XML)
url <- paste("http://mockdraftable.com/players/2014/", sep = "")
combine <- readHTMLTable(url,which=1, header=FALSE, stringsAsFactors=F)
names(combine) <- c("Name", "Pos", "Hght", "Wght", "Arms", "Hands",
"Dash40yd", "Dash20yd", "Dash10yd", "Bench", "Vert", "Broad",
"Cone3", "ShortShuttle20")
Run Code Online (Sandbox Code Playgroud)
例如,第一行中的Hands列是'9¼'',我将如何组合$ Hands变为9.25?对于所有其他分数1/8 - 7/8也是如此.
任何帮助,将不胜感激.
我正在尝试使用Spark通过Python在同一会话中访问(通过JDBC)PostGres数据库和MSSQL数据库.在spark-defaults.conf文件中,我可以让一个或另一个工作但不能同时工作.
这两个独立工作:
spark.driver.extraClassPath /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/postgresql-9.4.1208.jre6.jar
spark.driver.extraClassPath /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/sqljdbc4.jar
Run Code Online (Sandbox Code Playgroud)
我尝试了这三个并且都不起作用(我得到"没有合适的驱动程序"错误):
spark.driver.extraClassPath /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/
spark.driver.extraClassPath /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/postgresql-9.4.1208.jre6.jar sqljdbc4.jar
spark.driver.extraClassPath /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/postgresql-9.4.1208.jre6.jar /Users/myusername/spark-1.6.1-bin-hadoop2.4/lib/sqljdbc4.jar
Run Code Online (Sandbox Code Playgroud)
提前致谢.
我在将 JSON 文件(从 API)转换为 R 中的数据框时遇到问题。一个例子是 URL http://api.fantasy.nfl.com/v1/players/stats?statType=seasonStats&season=2010&week= 1&格式=json
我尝试了 S/O 的一些不同建议,包括 将 json 数据转换为 R 中的数据框和各种博客文章,例如http://zevross.com/blog/2015/02/12/using-r-to- download-and-parse-json-an-example-using-data-from-an-open-data-portal/
我最接近的是使用下面的代码,它为我提供了一个包含 4 个“行”和一堆“变量”(V1、V2 等)的大矩阵。我假设这个 JSON 文件的格式与“普通”文件的格式不同。
library(RJSONIO)
raw_data <- getURL("http://api.fantasy.nfl.com/v1/players/stats?statType=seasonStats&season=2010&week=1&format=json")
data <- fromJSON(raw_data)
final_data <- do.call(rbind, data)
Run Code Online (Sandbox Code Playgroud)
我不知道如何让它工作,所以欢迎任何 R 包/进程。提前致谢。
我正在尝试使用get_dummiesviadask但它不会转换我的变量,也不会出错:
>>> import dask.dataframe as dd
>>> import pandas as pd
>>> df_d = dd.read_csv('/datasets/dask_example/dask_get_dummies_example.csv')
>>> df_d.head()
uid gender
0 1 M
1 2 NaN
2 3 NaN
3 4 F
4 5 NaN
>>> daskDataCategorical = df_d[['gender']]
>>> daskDataDummies = dd.get_dummies(daskDataCategorical)
>>> daskDataDummies.head()
gender
0 M
1 NaN
2 NaN
3 F
4 NaN
>>> daskDataDummies.compute()
gender
0 M
1 NaN
2 NaN
3 F
4 NaN
5 F
6 M
7 F
8 M …Run Code Online (Sandbox Code Playgroud) 鉴于以下示例数据集:
df <- as.data.frame(matrix( c(1, 2, 3, NA, 5, NA,
7, NA, 9, 10, NA, NA), nrow=2, ncol=6))
names(df) <- c( "varA", "varB", "varC", "varD", "varE", "varF")
print(df)
varA varB varC varD varE varF
1 1 3 5 7 9 NA
2 2 NA NA NA 10 NA
Run Code Online (Sandbox Code Playgroud)
我希望能够在数据集上使用 kmeans(...) ,而无需手动检查或删除变量内任何地方包含 NA的变量。虽然我现在正在询问 kmeans(...) 我将使用类似的过程处理其他事情,因此 kmeans(...) 具体答案不会完全回答我的问题。
我想要的手动版本是:
kmeans_model <- kmeans(df[, -c(2:4, 6)], 10)
Run Code Online (Sandbox Code Playgroud)
伪代码将是:
kmeans_model <- kmeans(df[, -c(colnames(is.na(df)))], 10)
Run Code Online (Sandbox Code Playgroud)
另外,我不想从 df 中删除数据。提前致谢。
(显然 kmeans(...) 不适用于此示例数据集,但我无法重新创建真实数据集)