Jit*_*itu 7 python file apache-spark pyspark
在 pyspark 中读取带有标头的 .tsv 文件并将其存储在 Spark 数据框中的最佳方法是什么?
我正在尝试使用“spark.read.options”和“spark.read.csv”命令,但没有运气。
谢谢。
问候, 吉特
Shu*_*ain 12
如果有可用的标头,您可以直接读取 tsv 文件,而无需提供外部架构:
df = spark.read.csv(path, sep=r'\t', header=True).select('col1','col2')
Run Code Online (Sandbox Code Playgroud)
由于 Spark 是惰性评估的,因此它只会读取选定的列。希望能帮助到你。