使用 PySpark 从 azure blob 存储读取 csv 文件

Question

使用 PySpark 从 azure blob 存储读取 csv 文件

Mat*_*ver 5 azure azure-storage apache-spark pyspark azure-hdinsight

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目。要在我的集群上进行操作，请使用 Jupyter 笔记本。另外，我的数据（csv 文件）存储在 Azure Blob 存储中。

根据文档，我的文件路径的语法是：

path = 'wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'

Run Code Online (Sandbox Code Playgroud)

但是，当我尝试使用以下命令读取 csv 文件时：

csvFile = spark.read.csv(path, header=True, inferSchema=True)

Run Code Online (Sandbox Code Playgroud)

我收到以下错误：

'java.net.URISyntaxException: Illegal character in scheme name at index 4: wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'

Run Code Online (Sandbox Code Playgroud)

这是笔记本中错误的屏幕截图：错误截图

有想法该怎么解决这个吗？

Answer 1

hi-*_*zir 3

它是（未加密）：

wasb://...

Run Code Online (Sandbox Code Playgroud)

或（加密）：

wasbs://...

Run Code Online (Sandbox Code Playgroud)

不是

wasb[s]://...

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，8 月前
查看次数：	9422 次
最近记录：	6 年，4 月前