我有RDD[Row],需要持久保存到第三方存储库.但是这个第三方存储库在一次调用中最多接受5 MB.
RDD[Row]
所以我想根据RDD中存在的数据大小创建分区,而不是基于RDD中存在的行数.
如何找到a的大小RDD并根据它创建分区?
RDD
apache-spark apache-spark-sql
apache-spark ×1
apache-spark-sql ×1