我正在使用带有scala原型的maven.我收到了这个错误:
"value $不是StringContext的成员"
我已经尝试在pom.xml中添加几个东西,但没有什么效果很好......
我的代码:
import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.ml.regression.LinearRegression
import org.apache.spark.ml.tuning.{ParamGridBuilder, TrainValidationSplit}
// To see less warnings
import org.apache.log4j._
Logger.getLogger("org").setLevel(Level.ERROR)
// Start a simple Spark Session
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().getOrCreate()
// Prepare training and test data.
val data = spark.read.option("header","true").option("inferSchema","true").format("csv").load("USA_Housing.csv")
// Check out the Data
data.printSchema()
// See an example of what the data looks like
// by printing out a Row
val colnames = data.columns
val firstrow = data.head(1)(0)
println("\n")
println("Example Data Row")
for(ind <- Range(1,colnames.length)){
println(colnames(ind)) …Run Code Online (Sandbox Code Playgroud) 我在 DataFrame 中有一个列,我需要在 Pyspark 中选择 3 个随机值。有人可以帮我吗?
+---+
| id|
+---+
|123|
|245|
| 12|
|234|
+---+
Run Code Online (Sandbox Code Playgroud)
欲望:
具有 3 个随机值的数组从该列中获取:
**output**: [123, 12, 234]
Run Code Online (Sandbox Code Playgroud) 如何使用R语言转换character(0)为NA列表?
例:
a = list("a", "character(0)", "b", "c")
Run Code Online (Sandbox Code Playgroud)
至
a = list("a", "NA", "b", "c")
Run Code Online (Sandbox Code Playgroud)
谢谢.
我有一个 pyspark 数据框,我想将该列之一从字符串转换为整数。例子:
表1:
+------------+-----+
|categories |value|
+------------+-----+
| red| 0.23|
| green| 0.34|
| yellow| 0.56|
| black| 0.11|
| red| 0.67|
| red| 0.34|
| green| 0.45|
+------------+-----+
Run Code Online (Sandbox Code Playgroud)
表2:
+------------+-----+
|categ_num |value|
+------------+-----+
| 1| 0.23|
| 2| 0.34|
| 3| 0.56|
| 4| 0.11|
| 1| 0.67|
| 1| 0.34|
| 2| 0.45|
+------------+-----+
Run Code Online (Sandbox Code Playgroud)
因此,在这种情况下:[红色=1,绿色=2,黄色=3,黑色=4]。
但我不知道所有颜色以便手动分配。所以,我需要一种方法来自动进行归因。
有人可以帮我吗?
我在 Pyspark 中有一个 DataFrame,我需要选择其中 id 值出现在数组中的行。有人可以帮我吗?
例子:
+---+-----+
| id| col2|
+---+-----+
|123| 2 |
|245| 32 |
| 12| 34 |
|234| 1 |
+---+-----+
Run Code Online (Sandbox Code Playgroud)
数组:[123, 12, 234]
想要的结果:
+---+-----+
| id| col2|
+---+-----+
|123| 2 |
| 12| 34 |
|234| 1 |
+---+-----+
Run Code Online (Sandbox Code Playgroud) 如何打印不带括号但带引号的数组?
我有:
a = ['1','2','3','4','5']
' '.join(map(str, a))
Run Code Online (Sandbox Code Playgroud)
我收到的结果:
1, 2, 3, 4, 5
Run Code Online (Sandbox Code Playgroud)
预期结果(想要):
'1','2','3','4','5'
Run Code Online (Sandbox Code Playgroud)
(带有逗号和引号)
pyspark ×3
pyspark-sql ×2
python ×2
apache-spark ×1
list ×1
python-2.7 ×1
python-3.x ×1
r ×1
scala ×1