小编nic*_*chy的帖子

用于从Temenos T24中提取数据的开源工具

是否有一个开源工具将数据从T24系统提取到SQL数据库?或者也许是Talend的连接器?

谢谢

talend jbase

4
推荐指数
1
解决办法
1496
查看次数

从 Spark DataFrame 列中的数组获取最小值

我有一个带有数组的数据框。

val DF = Seq(
  ("123", "|1|2","3|3|4" ),
  ("124", "|3|2","|3|4" )
).toDF("id", "complete1", "complete2")
.select($"id", split($"complete1", "\\|").as("complete1"), split($"complete2", "\\|").as("complete2"))

|id           |complete1|complete2|
+-------------+---------+---------+
|          123| [, 1, 2]|[3, 3, 4]|
|          124| [, 3, 2]| [, 3, 4]|
+-------------+---------+---------+
Run Code Online (Sandbox Code Playgroud)

如何提取每个数组的最小值?

|id           |complete1|complete2|
+-------------+---------+---------+
|          123| 1       | 3       |
|          124| 2       | 3       |
+-------------+---------+---------+
Run Code Online (Sandbox Code Playgroud)

我尝试定义一个 UDF 来执行此操作,但出现错误。

def minArray(a:Array[String]) :String = a.filter(_.nonEmpty).min.mkString
val minArrayUDF = udf(minArray _)   
def getMinArray(df: DataFrame, i: Int): DataFrame = df.withColumn("complete" + i, minArrayUDF(df("complete" + …
Run Code Online (Sandbox Code Playgroud)

scala apache-spark

4
推荐指数
1
解决办法
8410
查看次数

如何在CSV文件的每一行上执行wordcount?

我有一个包含ID字段和TEXT字段的CSV文件.我需要TEXT在每一行添加第三个字段,字段数为count .我该怎么办?

示例:如果这是我的起始数据框

  ID                                 TEXT
1  1           Lorem ipsum dolor sit amet
2  2           Praesent venenatis nisl id
3  3 Nunc dapibus maximus vulputate. Nunc
Run Code Online (Sandbox Code Playgroud)

那么期望的结果是

  ID                                 TEXT WordCount
1  1           Lorem ipsum dolor sit amet         5
2  2           Praesent venenatis nisl id         4
3  3 Nunc dapibus maximus vulputate. Nunc         5
Run Code Online (Sandbox Code Playgroud)

r

3
推荐指数
1
解决办法
429
查看次数

按连续负值或正值分割的时间序列的累积总和

我有一个如下所示的时间序列数据:

date        values
2017-05-01      1
2017-05-02      0.5
2017-05-03     -2
2017-05-04     -1
2017-05-05     -1.25
2017-05-06      0.5
2017-05-07      0.5
Run Code Online (Sandbox Code Playgroud)

我想添加一个字段,用于按趋势计算我的时间序列的累积总和:连续正值的总和,连续负值的总和。看起来像这样的东西:

date        values   newfield
2017-05-01      1         1      |
2017-05-02      0.5       1.5    |
2017-05-03     -2        -2    |
2017-05-04     -1        -3    |
2017-05-05     -1.25     -4.25 |
2017-05-06      0.5       0.5    |
2017-05-07      0.5       1      |
Run Code Online (Sandbox Code Playgroud)

目前,我正在尝试使用 shift 然后使用条件,但这确实效率不高,我意识到这真的不是一个好方法。

def pn(x, y):
if x < 0 and y < 0:
    return 1
if x > 0 and y > 0:
    return 1
else:
    return 0 

def consum(x,y,z): …
Run Code Online (Sandbox Code Playgroud)

python pandas

0
推荐指数
1
解决办法
1376
查看次数

标签 统计

apache-spark ×1

jbase ×1

pandas ×1

python ×1

r ×1

scala ×1

talend ×1