我知道Dataset(类型安全性等)的优点,但是我找不到与Spark Datasets Limitations相关的任何文档。
有没有在那里星火任何特定情况下Dataset是不建议,更好地使用DataFrame。
当前,我们所有的数据工程流程都使用Spark(Scala)DataFrame。我们想Dataset在所有新流程中使用。因此了解所有限制/缺点Dataset将对我们有帮助。
编辑:这与Spark 2.0 Dataset vs DataFrame不同,后者说明了Dataframe / Dataset上的一些操作。或其他问题,其中大多数解释了rdd,数据框和数据集之间的差异以及它们的演变方式。旨在了解何时不使用数据集
apache-spark ×1