小编kom*_*ikc的帖子

Spark Dataframe 如何在性能上优于 Pandas Dataframe?

谁能解释一下 Spark Dataframes 在执行时间方面比 Pandas Dataframes 更好的地方。我正在处理中等数量的数据并进行 python 函数驱动的转换

例如,我的数据集中有一列数字从 1 到 100,000,并且想要执行基本的数字操作 - 创建一个新列,该列是现有数字列的立方体。

from datetime import datetime
import numpy as np
import pandas as pd

def cube(num):
    return num**3

array_of_nums = np.arange(0,100000)

dataset = pd.DataFrame(array_of_nums, columns = ["numbers"])

start_time = datetime.now() 
# Some complex transformations...
dataset["cubed"] = [cube(x) for x in dataset.numbers]
end_time = datetime.now() 

print("Time taken :", (end_time-start_time))
Run Code Online (Sandbox Code Playgroud)

输出是

Time taken : 0:00:00.109349
Run Code Online (Sandbox Code Playgroud)

如果我将 Spark Dataframe 与 10 个工作节点一起使用,我可以期待以下结果吗?(这是 Pandas DataFrame 所用时间的 1/10)

Time taken : 0:00:00.010935
Run Code Online (Sandbox Code Playgroud)

python dataframe apache-spark pyspark databricks

3
推荐指数
1
解决办法
6256
查看次数

标签 统计

apache-spark ×1

databricks ×1

dataframe ×1

pyspark ×1

python ×1