mmo*_*jas 3 visualization apache-spark-sql apache-zeppelin
我在使用Zeppelin创建可视化文件时遇到问题。我有大约6亿条记录的数据集。它存储在HDFS集群中,并且能够作为Spark数据帧加载:
%spark.pyspark
input_hdfs_path = u'hdfs://cluster-master:9000/data/CDR_*.parquet'
df = spark.read.format('parquet').load(input_hdfs_path)
df.registerTempTable("df")
Run Code Online (Sandbox Code Playgroud)
我对在CDR的长度(字段CDR_LENGTH
)上创建直方图感兴趣:
%sql
select ROUND(CDR_LENGTH, -2) as duration, count(*) as count
from df
group by 1
order by 1
Run Code Online (Sandbox Code Playgroud)
我确实在“表格”选项卡(具有两列duration
和count
)中获得了适当的结果,但是当转到条形图选项卡(或任何其他图形选项卡)时,它只是说“无可用数据”。你能弄清楚我在做什么错吗?谢谢
归档时间: |
|
查看次数: |
692 次 |
最近记录: |