我是 Spark 的新手并试图找到自己的方式。
我有一个 spark 应用程序,它在dataset 上运行一个复杂的 map 函数。此地图功能可能会因主要与数据相关的原因而失败。我怎样才能得到一些关于出了什么问题的有意义的信息?我不知道从哪里开始。
非常感谢!
我有pyspark下面的脚本.我想function在这个脚本中对单元进行单元测试.
def rename_chars(column_name):
chars = ((' ', '_&'), ('.', '_$'))
new_cols = reduce(lambda a, kv: a.replace(*kv), chars, column_name)
return new_cols
def column_names(df):
changed_col_names = df.schema.names
for cols in changed_col_names:
df = df.withColumnRenamed(cols, rename_chars(cols))
return df
Run Code Online (Sandbox Code Playgroud)
我在unittest下面写了一个测试函数.
但我不知道如何提交unittest.我做过spark-submit哪些都没有做任何事情.
import unittest
from my_script import column_names
from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
conf = SparkConf()
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)
cols = ['ID', 'NAME', 'last.name', 'abc test']
val = …Run Code Online (Sandbox Code Playgroud)