在pyspark中读取TSV文件

Jit*_*itu 7 python file apache-spark pyspark

在 pyspark 中读取带有标头的 .tsv 文件并将其存储在 Spark 数据框中的最佳方法是什么?

我正在尝试使用“spark.read.options”和“spark.read.csv”命令,但没有运气。

谢谢。

问候, 吉特

Shu*_*ain 12

如果有可用的标头,您可以直接读取 tsv 文件,而无需提供外部架构:

df = spark.read.csv(path, sep=r'\t', header=True).select('col1','col2')
Run Code Online (Sandbox Code Playgroud)

由于 Spark 是惰性评估的,因此它只会读取选定的列。希望能帮助到你。