我是 Python 新手,一直致力于从关系数据集构建层次结构。
如果有人知道如何进行此操作,那将有巨大的帮助。
我有一个关系数据集,其中包含如下数据
_currentnode,  childnode_  
 root,         child1  
 child1,       leaf2  
 child1,       child3  
 child1,       leaf4  
 child3,       leaf5  
 child3,       leaf6  
很快。我正在寻找一些 python 或 pyspark 代码来
构建如下所示的层次结构数据框
_level1, level2,  level3,  level4_  
root,    child1,  leaf2,   null  
root,    child1,  child3,  leaf5  
root,    child1,  child3,  leaf6  
root,    child1,  leaf4,   null  
这些数据是字母数字,是一个巨大的数据集[约 5000 万条记录]。
此外,层次结构的根是已知的,并且可以在代码中硬连线。
因此,在上面的示例中,层次结构的根是“root”。
当我尝试启动 sbt 时,它无法抛出 IO 异常。
SBT的版本 - 1.1.2
Scala 版本 - 2.12.6
错误:
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0
[info] Loading project definition from C:\Users\username\IdeaProjects\projectname\project
[info] Loading settings from build.sbt ...
[info] Set current project to example (in build file:/C:/Users/username/IdeaProjects/projectname/)
[error] server failed to start on local:sbt-server-ad238fc8ee352b69065c. java.io.IOException: Could not create lock for
\\.\pipe\sbt-server-ad238fc8ee352b69065c_lock, error 231
我有一张包含几千条记录的表格.当我运行一个类似的声明
select distinct issue_type from data_tab;
结果是:
issue_type
C
c
什么是获得不区分大小写的结果集的有效方法,因此结果是:
issue_type
C
我可以用sql之类的
select issue_type from data_tab
where data_id in 
( select min(data_id) from data_tab
group by upper(issue_type));
这比简单明确的语句慢约7倍.我想知道是否有更好的方法.在JPQL或(本机oracle)SQL中的任何建议都应该有很大的帮助.
在此先感谢Vardhan.
apache-spark ×1
graphframes ×1
hierarchy ×1
oracle ×1
pyspark ×1
python ×1
sbt ×1
scala ×1
sql ×1