小编Nim*_*m J的帖子

如何在不使用事务的情况下回滚删除命令

如何在不使用事务的情况下回滚删除命令?如果我们不能,那么Truncate和delete之间有什么区别?

truncate sql-server-2012

5
推荐指数
1
解决办法
2万
查看次数

Spark中QuantileDiscretizer和Bucketizer之间的区别

这可能是一个新手问题,但是我无法理解使用QuantileDiscretizeroverBucketizer在spark 2.1?

我知道这QuantileDiscretizer是一个估算器,可以处理NAN值,而Bucketizer如果数据具有NAN值,是一个转换器并会引发错误。

从spark 文档中,下面的代码产生类似的输出

from pyspark.ml.feature import QuantileDiscretizer
from pyspark.ml.feature import Bucketizer

data = [(0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2)]
df = spark.createDataFrame(data, ["id", "hour"])

result_discretizer = QuantileDiscretizer(numBuckets=3, inputCol="hour",outputCol="result").fit(df).transform(df)
result_discretizer.show()

splits = [-float("inf"),3, 10,float("inf")]
result_bucketizer = Bucketizer(splits=splits, inputCol="hour",outputCol="result").transform(df)
result_bucketizer.show()
Run Code Online (Sandbox Code Playgroud)

输出:

+---+----+------+
| id|hour|result|
+---+----+------+
|  0|18.0|   2.0|
|  1|19.0|   2.0|
|  2| 8.0|   1.0|
|  3| 5.0|   1.0|
|  4| 2.2|   0.0|
+---+----+------+

+---+----+------+
| id|hour|result| …
Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark

5
推荐指数
1
解决办法
5095
查看次数

标签 统计

apache-spark ×1

pyspark ×1

sql-server-2012 ×1

truncate ×1