相关疑难解决方法(0)

如何在 Spark 工作线程上调试映射函数中的错误?

我是 Spark 的新手并试图找到自己的方式。

我有一个 spark 应用程序,它在dataset 上运行一个复杂的 map 函数。此地图功能可能会因主要与数据相关的原因而失败。我怎样才能得到一些关于出了什么问题的有意义的信息?我不知道从哪里开始。

非常感谢!

apache-spark pyspark

5
推荐指数
1
解决办法
2084
查看次数

使用python测试单元测试pyspark代码

我有pyspark下面的脚本.我想function在这个脚本中对单元进行单元测试.

def rename_chars(column_name):
    chars = ((' ', '_&'), ('.', '_$'))
    new_cols = reduce(lambda a, kv: a.replace(*kv), chars, column_name)
    return new_cols


def column_names(df):
    changed_col_names = df.schema.names
    for cols in changed_col_names:
        df = df.withColumnRenamed(cols, rename_chars(cols))
    return df   
Run Code Online (Sandbox Code Playgroud)

我在unittest下面写了一个测试函数.

但我不知道如何提交unittest.我做过spark-submit哪些都没有做任何事情.

import unittest
from my_script import column_names

from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
conf = SparkConf()
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)

cols = ['ID', 'NAME', 'last.name', 'abc test']
val = …
Run Code Online (Sandbox Code Playgroud)

python unit-testing pyspark

5
推荐指数
2
解决办法
2056
查看次数

标签 统计

pyspark ×2

apache-spark ×1

python ×1

unit-testing ×1