小编Anh*_*ata的帖子

将 python 实用函数导入 jupyter 笔记本

我一直在我的 python 应用程序中使用 Jupyter Notebook。我经常使用几个实用函数。今天，我的解决方案是将所有这些函数复制到新的 python 笔记本中并执行我的新应用程序。我想编写一个 python 文件（例如 utility.py）并在该文件中编写所有例程函数。但是，我不确定如何调用或导入 utility.py 到 Jupyter Notebook 中。

utility.py
def f1(): do_something
def f2: do_something2
def f3: do_somthing3

Run Code Online (Sandbox Code Playgroud)

在 .ipynb 文件中

import utility.py
utility.f1()
utility.f2()

Run Code Online (Sandbox Code Playgroud)

python import jupyter-notebook

Anh*_*ata

lucky-day

5
推荐指数

1
解决办法

7115
查看次数

如何在Spark-scala中将Iterable [String]保存到hdfs

val ordersRDD = sc.textFile("/user/cloudera/sqoop_import/orders");
val ordersRDDStatus = ordersRDD.map( rec => (rec.split(",")(3), 1));
val countOrdersStatus = ordersRDDStatus.countByKey();
val output = countOrdersStatus.map(input => input._1 + "\t" + input._2);

Run Code Online (Sandbox Code Playgroud)

如何将Iterable [String]的输出保存到spark-scala中的hdfs。可迭代[String]

注意：输出不是RDD（我不能使用output.saveAsTextFile（“ hdfs-path”）

hadoop scala mapreduce apache-spark rdd

Anh*_*ata

2016 06-11

2
推荐指数

1
解决办法

2781
查看次数

动态连接多个列上的两个spark-scala数据帧,无需硬编码连接条件

我想动态地在多个列上加入两个spark-scala数据帧.我会避免硬编码列名比较,如下面的陈述所示;

val joinRes = df1.join(df2, df1("col1") == df2("col1") and df1("col2") == df2("col2"))

Run Code Online (Sandbox Code Playgroud)

此查询的解决方案已存在于pyspark版本中 - 在以下链接中提供 PySpark DataFrame - 动态加入多个列

我想使用spark-scala编写相同的代码

scala join multiple-columns spark-dataframe

Anh*_*ata

2017 05-23

1
推荐指数

1
解决办法

3386
查看次数

标签统计

scala ×2

apache-spark ×1

hadoop ×1

import ×1

join ×1

jupyter-notebook ×1

mapreduce ×1

multiple-columns ×1

python ×1

rdd ×1

spark-dataframe ×1

将 python 实用函数导入 jupyter 笔记本

如何在Spark-scala中将Iterable [String]保存到hdfs

动态连接多个列上的两个spark-scala数据帧,无需硬编码连接条件

标签 统计

小编Anh_ata的帖子

标签统计