我是 Python 新手,一直致力于从关系数据集构建层次结构。
如果有人知道如何进行此操作,那将有巨大的帮助。
我有一个关系数据集,其中包含如下数据
_currentnode, childnode_
root, child1
child1, leaf2
child1, child3
child1, leaf4
child3, leaf5
child3, leaf6
Run Code Online (Sandbox Code Playgroud)
很快。我正在寻找一些 python 或 pyspark 代码来
构建如下所示的层次结构数据框
_level1, level2, level3, level4_
root, child1, leaf2, null
root, child1, child3, leaf5
root, child1, child3, leaf6
root, child1, leaf4, null
Run Code Online (Sandbox Code Playgroud)
这些数据是字母数字,是一个巨大的数据集[约 5000 万条记录]。
此外,层次结构的根是已知的,并且可以在代码中硬连线。
因此,在上面的示例中,层次结构的根是“root”。
当我尝试启动 sbt 时,它无法抛出 IO 异常。
SBT的版本 - 1.1.2
Scala 版本 - 2.12.6
错误:
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0
[info] Loading project definition from C:\Users\username\IdeaProjects\projectname\project
[info] Loading settings from build.sbt ...
[info] Set current project to example (in build file:/C:/Users/username/IdeaProjects/projectname/)
[error] server failed to start on local:sbt-server-ad238fc8ee352b69065c. java.io.IOException: Could not create lock for
\\.\pipe\sbt-server-ad238fc8ee352b69065c_lock, error 231
Run Code Online (Sandbox Code Playgroud) 我有一张包含几千条记录的表格.当我运行一个类似的声明
select distinct issue_type from data_tab;
Run Code Online (Sandbox Code Playgroud)
结果是:
issue_type
C
c
Run Code Online (Sandbox Code Playgroud)
什么是获得不区分大小写的结果集的有效方法,因此结果是:
issue_type
C
Run Code Online (Sandbox Code Playgroud)
我可以用sql之类的
select issue_type from data_tab
where data_id in
( select min(data_id) from data_tab
group by upper(issue_type));
Run Code Online (Sandbox Code Playgroud)
这比简单明确的语句慢约7倍.我想知道是否有更好的方法.在JPQL或(本机oracle)SQL中的任何建议都应该有很大的帮助.
在此先感谢Vardhan.
apache-spark ×1
graphframes ×1
hierarchy ×1
oracle ×1
pyspark ×1
python ×1
sbt ×1
scala ×1
sql ×1