我有:
我想使用PySpark来应用它们,但是我总是会遇到一些有线错误,例如:
我通常使用类似的代码
def apply_model(partition):
model = load(...) # load model only when apply this function to avoid serialization issue
for row in partition:
yield model.infer(row)
Run Code Online (Sandbox Code Playgroud)
要么
def apply_model(partition):
model = load(...) # load model only when apply this function to
yield from model.infer(partition)
Run Code Online (Sandbox Code Playgroud)
并使用
df.select(...).rdd.mapPartitions(apply_model)
broadcast由于序列化的原因,我无法建模。
问题-如何应用基于python / any-non-jvm的大型模型来引发数据帧并避免引发异常?