是否有一个开源工具将数据从T24系统提取到SQL数据库?或者也许是Talend的连接器?
谢谢
我有一个带有数组的数据框。
val DF = Seq(
("123", "|1|2","3|3|4" ),
("124", "|3|2","|3|4" )
).toDF("id", "complete1", "complete2")
.select($"id", split($"complete1", "\\|").as("complete1"), split($"complete2", "\\|").as("complete2"))
|id |complete1|complete2|
+-------------+---------+---------+
| 123| [, 1, 2]|[3, 3, 4]|
| 124| [, 3, 2]| [, 3, 4]|
+-------------+---------+---------+
Run Code Online (Sandbox Code Playgroud)
如何提取每个数组的最小值?
|id |complete1|complete2|
+-------------+---------+---------+
| 123| 1 | 3 |
| 124| 2 | 3 |
+-------------+---------+---------+
Run Code Online (Sandbox Code Playgroud)
我尝试定义一个 UDF 来执行此操作,但出现错误。
def minArray(a:Array[String]) :String = a.filter(_.nonEmpty).min.mkString
val minArrayUDF = udf(minArray _)
def getMinArray(df: DataFrame, i: Int): DataFrame = df.withColumn("complete" + i, minArrayUDF(df("complete" + …Run Code Online (Sandbox Code Playgroud) 我有一个包含ID字段和TEXT字段的CSV文件.我需要TEXT在每一行添加第三个字段,字段数为count .我该怎么办?
示例:如果这是我的起始数据框
ID TEXT
1 1 Lorem ipsum dolor sit amet
2 2 Praesent venenatis nisl id
3 3 Nunc dapibus maximus vulputate. Nunc
Run Code Online (Sandbox Code Playgroud)
那么期望的结果是
ID TEXT WordCount
1 1 Lorem ipsum dolor sit amet 5
2 2 Praesent venenatis nisl id 4
3 3 Nunc dapibus maximus vulputate. Nunc 5
Run Code Online (Sandbox Code Playgroud) 我有一个如下所示的时间序列数据:
date values
2017-05-01 1
2017-05-02 0.5
2017-05-03 -2
2017-05-04 -1
2017-05-05 -1.25
2017-05-06 0.5
2017-05-07 0.5
Run Code Online (Sandbox Code Playgroud)
我想添加一个字段,用于按趋势计算我的时间序列的累积总和:连续正值的总和,连续负值的总和。看起来像这样的东西:
date values newfield
2017-05-01 1 1 |
2017-05-02 0.5 1.5 |
2017-05-03 -2 -2 |
2017-05-04 -1 -3 |
2017-05-05 -1.25 -4.25 |
2017-05-06 0.5 0.5 |
2017-05-07 0.5 1 |
Run Code Online (Sandbox Code Playgroud)
目前,我正在尝试使用 shift 然后使用条件,但这确实效率不高,我意识到这真的不是一个好方法。
def pn(x, y):
if x < 0 and y < 0:
return 1
if x > 0 and y > 0:
return 1
else:
return 0
def consum(x,y,z): …Run Code Online (Sandbox Code Playgroud)