标签: shared-file

如何在 Google Colab 上使用共享上传的文件

我正在和我的朋友一起使用 Google Colab 进行一个小组项目。我上传了一个 csv 文件,并让 Pandas 将其作为数据帧读取:

from google.colab import files
uploaded = files.upload()
import io
df = pd.read_csv(io.StringIO(uploaded['cumulative.csv'].decode('utf-8')))
Run Code Online (Sandbox Code Playgroud)

但是,当我与朋友共享笔记本时,他无法使用上传的df。我想知道是否有办法解决这个问题?还是 Google colab 根本没有共享文件功能?

谢谢!

python shared-file jupyter-notebook google-colaboratory

8
推荐指数
1
解决办法
5940
查看次数

如何将 numpy 数组从 PySpark worker 保存到 HDFS 或共享文件系统?

我想在 PySpark 中有效地将 numpy 数组从/到工作机器(函数)保存/读取到 HDFS。我有两台机器 A 和 B。A 有主人和工人。B 有一名工人。例如,我想实现以下目标:

if __name__ == "__main__":
    conf = SparkConf().setMaster("local").setAppName("Test")
    sc = SparkContext(conf = conf)
    sc.parallelize([0,1,2,3], 2).foreachPartition(func)

def func(iterator):
    P = << LOAD from HDFS or Shared Memory as numpy array>>
    for x in iterator:
        P = P + x

    << SAVE P (numpy array) to HDFS/ shared file system >>
Run Code Online (Sandbox Code Playgroud)

什么是快速有效的方法?

hadoop hdfs shared-file apache-spark pyspark

5
推荐指数
1
解决办法
3644
查看次数