小编Var*_*han的帖子

使用 Pyspark 从关系数据集构建层次结构

我是 Python 新手，一直致力于从关系数据集构建层次结构。
如果有人知道如何进行此操作，那将有巨大的帮助。

我有一个关系数据集，其中包含如下数据

_currentnode,  childnode_  
 root,         child1  
 child1,       leaf2  
 child1,       child3  
 child1,       leaf4  
 child3,       leaf5  
 child3,       leaf6

Run Code Online (Sandbox Code Playgroud)

很快。我正在寻找一些 python 或 pyspark 代码来
构建如下所示的层次结构数据框

_level1, level2,  level3,  level4_  
root,    child1,  leaf2,   null  
root,    child1,  child3,  leaf5  
root,    child1,  child3,  leaf6  
root,    child1,  leaf4,   null

Run Code Online (Sandbox Code Playgroud)

这些数据是字母数字，是一个巨大的数据集[约 5000 万条记录]。
此外，层次结构的根是已知的，并且可以在代码中硬连线。
因此，在上面的示例中，层次结构的根是“root”。

python hierarchy apache-spark pyspark graphframes

Var*_*han

2021 01-02

9
推荐指数

1
解决办法

4999
查看次数

sbt 服务器无法开始抛出错误 231

当我尝试启动 sbt 时，它无法抛出 IO 异常。

SBT的版本 - 1.1.2

Scala 版本 - 2.12.6

错误：

Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0
[info] Loading project definition from C:\Users\username\IdeaProjects\projectname\project
[info] Loading settings from build.sbt ...
[info] Set current project to example (in build file:/C:/Users/username/IdeaProjects/projectname/)
[error] server failed to start on local:sbt-server-ad238fc8ee352b69065c. java.io.IOException: Could not create lock for
\\.\pipe\sbt-server-ad238fc8ee352b69065c_lock, error 231

Run Code Online (Sandbox Code Playgroud)

scala sbt

Var*_*han

2020 03-23

6
推荐指数

1
解决办法

4337
查看次数

如何在oracle数据表中检索不敏感的不同元素？

我有一张包含几千条记录的表格.当我运行一个类似的声明

select distinct issue_type from data_tab;

Run Code Online (Sandbox Code Playgroud)

结果是:

issue_type
C
c

Run Code Online (Sandbox Code Playgroud)

什么是获得不区分大小写的结果集的有效方法,因此结果是:

issue_type
C

Run Code Online (Sandbox Code Playgroud)

我可以用sql之类的

select issue_type from data_tab
where data_id in 
( select min(data_id) from data_tab
group by upper(issue_type));

Run Code Online (Sandbox Code Playgroud)

这比简单明确的语句慢约7倍.我想知道是否有更好的方法.在JPQL或(本机oracle)SQL中的任何建议都应该有很大的帮助.

在此先感谢Vardhan.

sql oracle

Var*_*han

2011 08-09

1
推荐指数

1
解决办法

1260
查看次数

标签统计

apache-spark ×1

graphframes ×1

hierarchy ×1

oracle ×1

pyspark ×1

python ×1

sbt ×1

scala ×1

sql ×1

使用 Pyspark 从关系数据集构建层次结构

sbt 服务器无法开始抛出错误 231

如何在oracle数据表中检索不敏感的不同元素？

标签 统计

小编Var_han的帖子

标签统计