在pyspark中读取TSV文件

Question

在 pyspark 中读取带有标头的 .tsv 文件并将其存储在 Spark 数据框中的最佳方法是什么？

我正在尝试使用“spark.read.options”和“spark.read.csv”命令，但没有运气。

谢谢。

问候，吉特

Answer 1

如果有可用的标头，您可以直接读取 tsv 文件，而无需提供外部架构：

df = spark.read.csv(path, sep=r'\t', header=True).select('col1','col2')

由于 Spark 是惰性评估的，因此它只会读取选定的列。希望能帮助到你。