我当前的Java /星火单元测试方法效果(详细点击这里)通过使用JUnit"本地"和运行单元测试实例化一个SparkContext.
必须组织代码以在一个函数中执行I/O,然后使用多个RDD调用另一个函数.
这非常有效.我有一个用Java + Spark编写的高度测试的数据转换.
我可以用Python做同样的事吗?
我如何用Python运行Spark单元测试?
我们有一个消息调度程序,它在使用密钥将它放在Kafka主题队列之前,从消息属性生成一个散列键.
这样做是为了重复数据删除的目的.但是,我不确定如何在不实际设置本地群集并检查其是否按预期执行的情况下测试此重复数据删除.
在线搜索用于模拟Kafka主题队列的工具没有帮助,我担心我可能会以错误的方式思考这个问题.
最终,无论用于模拟Kafka队列,都应该采用与本地集群相同的方式 - 即提供对主题队列的Key插入的去重复删除.
有没有这样的工具?