相关疑难解决方法(0)

自定义模块的功能在PySpark中不起作用,但在交互模式下输入时它们起作用

我有一个模块,我写的包含作用于PySpark DataFrames的函数.他们对DataFrame中的列进行转换,然后返回一个新的DataFrame.以下是代码的示例,缩写为仅包含其中一个函数:

from pyspark.sql import functions as F
from pyspark.sql import types as t

import pandas as pd
import numpy as np

metadta=pd.DataFrame(pd.read_csv("metadata.csv"))  # this contains metadata on my dataset

def str2num(text):
    if type(text)==None or text=='' or text=='NULL' or text=='null':
        return 0
    elif len(text)==1:
        return ord(text)
    else:
        newnum=''
        for lettr in text:
            newnum=newnum+str(ord(lettr))
        return int(newnum)

str2numUDF = F.udf(lambda s: str2num(s), t.IntegerType())

def letConvNum(df):    # df is a PySpark DataFrame
    #Get a list of columns that I want to transform, using …
Run Code Online (Sandbox Code Playgroud)

pyspark pyspark-sql

6
推荐指数
2
解决办法
4940
查看次数

标签 统计

pyspark ×1

pyspark-sql ×1