标签: shared-file

如何在 Google Colab 上使用共享上传的文件

我正在和我的朋友一起使用 Google Colab 进行一个小组项目。我上传了一个 csv 文件，并让 Pandas 将其作为数据帧读取：

from google.colab import files
uploaded = files.upload()
import io
df = pd.read_csv(io.StringIO(uploaded['cumulative.csv'].decode('utf-8')))

Run Code Online (Sandbox Code Playgroud)

但是，当我与朋友共享笔记本时，他无法使用上传的df。我想知道是否有办法解决这个问题？还是 Google colab 根本没有共享文件功能？

谢谢！

python shared-file jupyter-notebook google-colaboratory

Pho*_* Ha

2018 04-23

8
推荐指数

1
解决办法

5940
查看次数

如何将 numpy 数组从 PySpark worker 保存到 HDFS 或共享文件系统？

我想在 PySpark 中有效地将 numpy 数组从/到工作机器（函数）保存/读取到 HDFS。我有两台机器 A 和 B。A 有主人和工人。B 有一名工人。例如，我想实现以下目标：

if __name__ == "__main__":
    conf = SparkConf().setMaster("local").setAppName("Test")
    sc = SparkContext(conf = conf)
    sc.parallelize([0,1,2,3], 2).foreachPartition(func)

def func(iterator):
    P = << LOAD from HDFS or Shared Memory as numpy array>>
    for x in iterator:
        P = P + x

    << SAVE P (numpy array) to HDFS/ shared file system >>

Run Code Online (Sandbox Code Playgroud)

什么是快速有效的方法？

hadoop hdfs shared-file apache-spark pyspark

Bik*_*shi

lucky-day

5
推荐指数

1
解决办法

3644
查看次数