小编Kri*_*ddy的帖子

如何在databricks文件系统中移动相同扩展名的文件?

当我尝试在 DBFS 中移动带有 * 的文件时,我遇到了文件未找到异常。这里源目录和目标目录都在 DBFS 中。我在 dbfs 目录中有名为“test_sample.csv”的源文件,我正在使用笔记本单元中的如下命令,

dbutils.fs.mv("dbfs:/usr/krishna/sample/test*.csv", "dbfs:/user/abc/Test/Test.csv")
Run Code Online (Sandbox Code Playgroud)

错误:

java.io.FileNotFoundException: dbfs:/usr/krishna/sample/test*.csv
Run Code Online (Sandbox Code Playgroud)

我很感激任何帮助。谢谢。

databricks

10
推荐指数
2
解决办法
1万
查看次数

NameError: 名称“dbutils”未在 pyspark 中定义

我正在 databricks 云中运行 pyspark 作业。作为这项工作的一部分,我需要将一些 csv 文件写入数据块文件系统(dbfs),并且我还需要使用一些 dbutils 本机命令,例如,

#mount azure blob to dbfs location
dbutils.fs.mount (source="...",mount_point="/mnt/...",extra_configs="{key:value}")
Run Code Online (Sandbox Code Playgroud)

一旦文件被写入挂载目录,我也试图卸载。但是,当我直接在 pyspark 作业中使用 dbutils 时,它失败了

NameError: name 'dbutils' is not defined
Run Code Online (Sandbox Code Playgroud)

我应该导入任何包以在 pyspark 代码中使用 dbutils 吗?提前致谢。

pyspark-sql azure-blob-storage databricks

8
推荐指数
2
解决办法
6836
查看次数

Apache Spark 数据集 API:head(n:Int) 与 take(n:Int)

Apache Spark 数据集 API 有两种方法,即head(n:Int)take(n:Int)

Dataset.Scala 源包含

def take(n: Int): Array[T] = head(n) 
Run Code Online (Sandbox Code Playgroud)

找不到这两个函数之间执行代码的任何差异。为什么 API 有两种不同的方法来产生相同的结果?

apache-spark apache-spark-sql spark-dataframe

6
推荐指数
1
解决办法
7108
查看次数

如何通过Spark属性(Spark 1.6)启用或禁用spark-shell中的Hive支持?

是否有任何配置属性我们可以将其设置为在spark 1.6中通过spark-shell禁用/启用Hive支持.我试图获取所有sqlContext配置属性,

sqlContext.getAllConfs.foreach(println)
Run Code Online (Sandbox Code Playgroud)

但是,我不确定实际上需要哪个属性来禁用/启用配置单元支持.或者还有其他办法吗?

hive apache-spark apache-spark-sql apache-spark-1.6

5
推荐指数
2
解决办法
1万
查看次数

自定义spark csv行终止符

我正在使用 pyspark 代码使用下面的代码从数据帧生成 csv,

df.repartition(1).write.format('com.databricks.spark.csv').option("header","true").mode("overwrite").save("/user/test")
Run Code Online (Sandbox Code Playgroud)

但是,当我打开并在记事本++中看到行终止符时,它带有默认行终止符“\n”。我尝试过不同的选项,例如 textinputformat 记录分隔符集等,但没有运气。有没有办法在 Spark 中将数据帧导出到 csv 时自定义此 EOL?实际上我需要使用 CRLF ("\r\n") 自定义此 EOL。感谢任何帮助。谢谢。

export-to-csv pyspark databricks

5
推荐指数
1
解决办法
996
查看次数

Spark - 为我的spark作业分配了多少个执行器和内核

Spark架构完全围绕执行器和核心的概念.我想看看在集群中运行的spark应用程序运行了多少执行程序和核心.

我试图在我的应用程序中使用下面的代码段,但没有运气.

val conf = new SparkConf().setAppName("ExecutorTestJob")
val sc = new SparkContext(conf)
conf.get("spark.executor.instances")
conf.get("spark.executor.cores")
Run Code Online (Sandbox Code Playgroud)

有没有办法使用SparkContextObject或SparkConfobject等获取这些值.

python hadoop scala executors apache-spark

4
推荐指数
2
解决办法
6018
查看次数