我需要创建一个基于dask数据帧的某些条件的列.在熊猫中它是相当简单的:
ddf['TEST_VAR'] = ['THIS' if x == 200607 else
'NOT THIS' if x == 200608 else
'THAT' if x == 200609 else 'NONE'
for x in ddf['shop_week'] ]
Run Code Online (Sandbox Code Playgroud)
在dask中,我必须做同样的事情,如下所示:
def f(x):
if x == 200607:
y= 'THIS'
elif x == 200608 :
y= 'THAT'
else :
y= 1
return y
ddf1 = ddf.assign(col1 = list(ddf.shop_week.apply(f).compute()))
ddf1.compute()
Run Code Online (Sandbox Code Playgroud)
问题:
我可能需要和卡夫卡一起工作,我对它很陌生.我知道有些Kafka制作人会将日志(在Kafka中称为事件或消息或记录)发布到Kafka主题.
我需要通过消费者阅读卡夫卡主题.我是否需要首先设置消费者API然后我可以使用SparkStreaming Context(PySpark)进行流式传输,或者我可以直接使用KafkaUtils模块来读取kafka主题?
如果我需要设置Kafka消费者应用程序,我该怎么做?请您分享正确文档的链接.
提前致谢!!
apache-kafka apache-spark spark-streaming kafka-consumer-api pyspark