我有一个具有以下架构的 pyspark 数据框:
root
|-- src_ip: integer (nullable = true)
|-- dst_ip: integer (nullable = true)
Run Code Online (Sandbox Code Playgroud)
当通过 将此数据帧转换为 pandas 时toPandas()
,列类型从 Spark 中的整数更改为 pandas 中的浮点数:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9847 entries, 0 to 9846
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 src_ip 9607 non-null float64
1 dst_ip 9789 non-null float64
dtypes: float64(2)
memory usage: 154.0 KB
Run Code Online (Sandbox Code Playgroud)
有什么方法可以保留整数值,toPandas()
或者我只能在生成的 pandas 数据框中转换列类型?