efs*_*see 4 apache-spark pyspark
我正在使用 databricks 并尝试读取这样的 csv 文件:
df = (spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv(path_to_my_file)
)
Run Code Online (Sandbox Code Playgroud)
我收到错误:
AnalysisException: 'Unable to infer schema for CSV. It must be specified manually.;'
Run Code Online (Sandbox Code Playgroud)
我检查过我的文件不为空,并且我还尝试自己指定架构,如下所示:
schema = "datetime timestamp, id STRING, zone_id STRING, name INT, time INT, a INT"
df = (spark.read
.option("header", "true")
.schema(schema)
.csv(path_to_my_file)
)
Run Code Online (Sandbox Code Playgroud)
但是当尝试使用 display(df) 查看它时,它只是在下面给了我这个,我完全迷失了,不知道该怎么办。
df.show() and df.printSchema()给出以下结果:

看起来数据没有被读入数据帧。
我发现问题是由文件名引起的。
也许 databrick 无法读取以“_”开头的文件名模式。(下划线)。
我遇到了同样的问题,当我上传没有第一个字母(即下划线)的文件时,我能够处理它。
| 归档时间: |
|
| 查看次数: |
36551 次 |
| 最近记录: |