小编Var*_*han的帖子

使用 Pyspark 从关系数据集构建层次结构

我是 Python 新手,一直致力于从关系数据集构建层次结构。
如果有人知道如何进行此操作,那将有巨大的帮助。

我有一个关系数据集,其中包含如下数据

_currentnode,  childnode_  
 root,         child1  
 child1,       leaf2  
 child1,       child3  
 child1,       leaf4  
 child3,       leaf5  
 child3,       leaf6  
Run Code Online (Sandbox Code Playgroud)

很快。我正在寻找一些 python 或 pyspark 代码来
构建如下所示的层次结构数据框

_level1, level2,  level3,  level4_  
root,    child1,  leaf2,   null  
root,    child1,  child3,  leaf5  
root,    child1,  child3,  leaf6  
root,    child1,  leaf4,   null  
Run Code Online (Sandbox Code Playgroud)

这些数据是字母数字,是一个巨大的数据集[约 5000 万条记录]。
此外,层次结构的根是已知的,并且可以在代码中硬连线。
因此,在上面的示例中,层次结构的根是“root”。

python hierarchy apache-spark pyspark graphframes

9
推荐指数
1
解决办法
4999
查看次数

sbt 服务器无法开始抛出错误 231

当我尝试启动 sbt 时,它无法抛出 IO 异常。

SBT的版本 - 1.1.2

Scala 版本 - 2.12.6

错误:

Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0
[info] Loading project definition from C:\Users\username\IdeaProjects\projectname\project
[info] Loading settings from build.sbt ...
[info] Set current project to example (in build file:/C:/Users/username/IdeaProjects/projectname/)
[error] server failed to start on local:sbt-server-ad238fc8ee352b69065c. java.io.IOException: Could not create lock for
\\.\pipe\sbt-server-ad238fc8ee352b69065c_lock, error 231
Run Code Online (Sandbox Code Playgroud)

scala sbt

6
推荐指数
1
解决办法
4337
查看次数

如何在oracle数据表中检索不敏感的不同元素?

我有一张包含几千条记录的表格.当我运行一个类似的声明

select distinct issue_type from data_tab;
Run Code Online (Sandbox Code Playgroud)

结果是:

issue_type
C
c
Run Code Online (Sandbox Code Playgroud)

什么是获得不区分大小写的结果集的有效方法,因此结果是:

issue_type
C
Run Code Online (Sandbox Code Playgroud)

我可以用sql之类的

select issue_type from data_tab
where data_id in 
( select min(data_id) from data_tab
group by upper(issue_type));
Run Code Online (Sandbox Code Playgroud)

这比简单明确的语句慢约7倍.我想知道是否有更好的方法.在JPQL或(本机oracle)SQL中的任何建议都应该有很大的帮助.

在此先感谢Vardhan.

sql oracle

1
推荐指数
1
解决办法
1260
查看次数

标签 统计

apache-spark ×1

graphframes ×1

hierarchy ×1

oracle ×1

pyspark ×1

python ×1

sbt ×1

scala ×1

sql ×1