小编Sre*_*ulu的帖子

使用pyspark获取列的数据类型

我们正在从MongoDB读取数据Collection.Collection列有两个不同的值(例如:) (bson.Int64,int) (int,float).

我试图使用pyspark获取数据类型.

我的问题是有些列有不同的数据类型.

假设quantity并且weight是列

quantity           weight
---------          --------
12300              656
123566000000       789.6767
1238               56.22
345                23
345566677777789    21
Run Code Online (Sandbox Code Playgroud)

实际上我们没有为mongo集合的任何列定义数据类型.

当我从中查询计数时 pyspark dataframe

dataframe.count()
Run Code Online (Sandbox Code Playgroud)

我这样的例外

"Cannot cast STRING into a DoubleType (value: BsonString{value='200.0'})"
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark databricks

24
推荐指数
4
解决办法
5万
查看次数