相关疑难解决方法(0)

mapper会忽略哪些文件作为输入？

我正在链接多个MapReduce作业,并希望传递/存储一些元信息(例如配置或原始输入的名称)和结果.至少文件"_SUCCESS"以及目录"_logs"中的任何内容都会被忽略.

是否有任何文件名模式默认忽略InputReader？或者这只是一个固定的有限列表？

hadoop ignore filter mapper

Mar*_*o L

2019 01-31

8
推荐指数

1
解决办法

3896
查看次数

无法推断 pyspark 中 CSV 的架构

我正在使用 databricks 并尝试读取这样的 csv 文件：

df = (spark.read      
  .option("header", "true")
  .option("inferSchema", "true")
  .csv(path_to_my_file)
)

Run Code Online (Sandbox Code Playgroud)

我收到错误：

AnalysisException: 'Unable to infer schema for CSV. It must be specified manually.;'

Run Code Online (Sandbox Code Playgroud)

我检查过我的文件不为空，并且我还尝试自己指定架构，如下所示：

schema = "datetime timestamp, id STRING, zone_id STRING, name INT, time INT, a INT"
df = (spark.read      
  .option("header", "true")
  .schema(schema)
  .csv(path_to_my_file)
)

Run Code Online (Sandbox Code Playgroud)

但是当尝试使用 display(df) 查看它时，它只是在下面给了我这个，我完全迷失了，不知道该怎么办。

df.show() and df.printSchema()给出以下结果：

看起来数据没有被读入数据帧。

错误快照：

apache-spark pyspark

efs*_*see

2021 04-01

4
推荐指数

1
解决办法

4万
查看次数

标签统计

apache-spark ×1

filter ×1

hadoop ×1

ignore ×1

mapper ×1

pyspark ×1

mapper会忽略哪些文件作为输入？

无法推断 pyspark 中 CSV 的架构

标签 统计

标签统计