标签: udf

我正在尝试注册一个简单的 UDF，用于使用 Scala Luna Eclipse IDE 在 spark 中提取日期功能。这是我的代码：
sqlContext.udf.register("extract", (dateUnit: String, date : String) => udf.extract(dateUnit,date ) )

 def extract(dateUnit : String, date: String) :  String = {
    val splitArray : Array[String] = date.split("-") 
        val result  = dateUnit.toUpperCase() match {
      case "YEAR" => splitArray(0)
      case "MONTH" => splitArray(1)
      case "DAY" => splitArray(2)
      case whoa => "Unexpected case :" + whoa.toString()
    }
    return result ;
  }

Run Code Online (Sandbox Code Playgroud)

当我通过 Eclipse 控制台执行此功能时 Select * from date_dim WHERE d_dom < extract('YEAR', '2015-05-01') limit 10" …

eclipse scala apache-spark apache-spark-sql udf

Pre*_*ist

2015 10-15

6
推荐指数

0
解决办法

7843
查看次数

在Mac OSX上安装MySQL libmysqlclient-dev和UDF文件

我试图在我的Mac上安装以下软件包,以便在我的本地环境中测试我的API,但到目前为止我还没有成功.

https://github.com/spachev/mysql_udf_bundle

我尝试了各种各样的东西,比如:

brew install libmysqlclient-dev

Run Code Online (Sandbox Code Playgroud)

这产生了以下错误:

Error: No available formula with the name "libmysqlclient-dev" 
==> Searching for similarly named formulae...
Error: No similarly named formulae found.
==> Searching taps...
Error: No formulae found in taps.

Run Code Online (Sandbox Code Playgroud)

我习惯于在CentOS上工作,所以我并不是特别熟悉apt和brew... ...有谁能告诉我如何最好地在我的Mac上安装它？

不确定它是否有任何相关性,但我正在运行Mac OSX 10.11.4(El Capitan).

我当时不使用安装MySQL brew install mysql,而不是,我也跟着指示操作:http://jason.pureconcepts.net/2015/10/install-apache-php-mysql-mac-os-x-el-capitan/

mysql unix macos homebrew udf

Ben*_*rey

2016 05-28

6
推荐指数

2
解决办法

1万
查看次数

获取OutofMemoryError- GC开销限制超出pyspark

在项目中间我在我的spark sql查询中调用一个函数后出现了波纹管错误

我已经写了一个用户定义函数,它将取两个字符串并连接它们连接后它将占用大多数子串长度为5取决于总字符串长度(sql server的右(字符串,整数)的替代方法)

  from pyspark.sql.types import*


def concatstring(xstring, ystring):
            newvalstring = xstring+ystring
            print newvalstring
            if(len(newvalstring)==6):
                stringvalue=newvalstring[1:6]
                return stringvalue
            if(len(newvalstring)==7):
                stringvalue1=newvalstring[2:7]
                return stringvalue1
            else:
                return '99999'


spark.udf.register ('rightconcat', lambda x,y:concatstring(x,y), StringType())

Run Code Online (Sandbox Code Playgroud)

它单独工作.现在,当我在我的spark sql查询中传递它作为列时,查询出现此异常

书面查询是

spark.sql("select d.BldgID,d.LeaseID,d.SuiteID,coalesce(BLDG.BLDGNAME,('select EmptyDefault from EmptyDefault')) as LeaseBldgName,coalesce(l.OCCPNAME,('select EmptyDefault from EmptyDefault'))as LeaseOccupantName, coalesce(l.DBA, ('select EmptyDefault from EmptyDefault')) as LeaseDBA, coalesce(l.CONTNAME, ('select EmptyDefault from EmptyDefault')) as LeaseContact,coalesce(l.PHONENO1, '')as LeasePhone1,coalesce(l.PHONENO2, '')as LeasePhone2,coalesce(l.NAME, '') as LeaseName,coalesce(l.ADDRESS, '') as LeaseAddress1,coalesce(l.ADDRESS2,'') as LeaseAddress2,coalesce(l.CITY, '')as LeaseCity, coalesce(l.STATE, ('select EmptyDefault from EmptyDefault'))as LeaseState,coalesce(l.ZIPCODE, '')as …

Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark udf pyspark-sql

Kal*_*yan

lucky-day

6
推荐指数

1
解决办法

2万
查看次数

选择Hive Struct的所有列

我需要从hive结构中的所有列中选择*.

Hive创建表脚本如下所示

创建表脚本

从表中选择*将每个结构显示为从表中选择*列

我的要求是将结构集合的所有字段显示为配置单元中的列.

用户不必单独编写列名.有没有人有UDF这样做？

struct hive hive-udf udf apache-hive

Abh*_*yak

2017 03-17

6
推荐指数

2
解决办法

7267
查看次数

在 Spark Scala UDF 中定义返回值

想象一下下面的代码：

def myUdf(arg: Int) = udf((vector: MyData) => {
  // complex logic that returns a Double
})

Run Code Online (Sandbox Code Playgroud)

如何定义 myUdf 的返回类型，以便查看代码的人立即知道它返回 Double？

scala user-defined-functions apache-spark udf

Mar*_*ace

lucky-day

6
推荐指数

2
解决办法

2万
查看次数

如何使用 mysql udf json_extract 0.4.0 从 json 数组中提取行？

我有一些 sql 想要传递到 mysql 存储过程中。我正在使用 mysql-json-udfs-0.4.0-labs-json-udfs-linux-glibc2.5-x86_64 中的 json 函数。我们正在运行 mysql 5.5.4 服务器。可以选择更新到 5.7.x。

当我跑步时

set @mapJSON = '[{"from":12,"to":0},{"from":11,"to":-1},{"from":1,"to":1}]' ;
select json_extract(@mapJSON,'from') `from`,json_extract(@mapJSON,'to') `to` ;

Run Code Online (Sandbox Code Playgroud)

我期待着

Run Code Online (Sandbox Code Playgroud)

我正进入（状态

    from    to
    {"from":12,"to":0}  {"from":12,"to":0}

Run Code Online (Sandbox Code Playgroud)

问题是如何使用 udf json_extract 0.4.0 从 json 数组中提取行？

我暂时通过使用comma_schema和 json解决了这个问题

        {
        "map": [
            {
                "from": 12,
                "to": 0
            },
            {
                "from": 1,
                "to": 10
            },
            {
                "from": 2,
                "to": 20
            },
            {
                "from": 3,
                "to": 30
            },
            {
                "from": 4,
                "to": …

Run Code Online (Sandbox Code Playgroud)

mysql json udf

Kei*_*son

2016 04-01

5
推荐指数

3
解决办法

3万
查看次数

如何使用spark UDF返回复杂类型

您好,并提前感谢您.

我的程序是用java编写的,我无法移动到scala.

我目前正在使用以下行使用从json文件中提取的spark DataFrame:

DataFrame dff = sqlContext.read().json("filePath.son");

SQLContext和SparkContext被正确初始化并完美运行.

问题是我正在读取的json有嵌套结构,我想清理/验证内部数据,而不更改模式.

其中一个数据帧的列具有"GenericRowWithSchema"类型.

假设我想清理那个名为"data"的列.

我想到的解决方案是定义名为"cleanDataField"的用户定义函数(UDF),然后在"data"列上运行它.这是代码:

UDF1<GenericRowWithSchema,GenericRowWithSchema> cleanDataField = new UDF1<GenericRowWithSchema, GenericRowWithSchema>(){

        public GenericRowWithSchema call( GenericRowWithSchema grws){

            cleanGenericRowWithSchema(grws);

            return grws;

        }
    };

Run Code Online (Sandbox Code Playgroud)

然后我会在SQLContext中注册该函数:

sqlContext.udf().register("cleanDataField", cleanDataField, DataTypes.StringType);

Run Code Online (Sandbox Code Playgroud)

之后我会打电话

df.selectExpr("cleanDataField(data)").show(10, false);

为了查看带有干净数据的前10行.

最后,问题导致:我可以返回复杂数据(例如自定义类对象)吗？如果有可能,我应该怎么做？我想我必须更改udf注册的第3个参数,因为我没有返回一个字符串,但我应该替换它？

谢谢

java json user-defined-functions apache-spark udf

Alb*_* CR

lucky-day

5
推荐指数

1
解决办法

2503
查看次数

Spark Struct结构域名称在UDF中更改

我试图将一个struct in spark传递给udf.它正在更改字段名称并重命名为列位置.我如何解决它？

object TestCSV {

          def main(args: Array[String]) {

            val conf = new SparkConf().setAppName("localTest").setMaster("local")
            val sc = new SparkContext(conf)
            val sqlContext = new SQLContext(sc)


            val inputData = sqlContext.read.format("com.databricks.spark.csv")
                  .option("delimiter","|")
                  .option("header", "true")
                  .load("test.csv")


            inputData.printSchema()

            inputData.show()

            val groupedData = inputData.withColumn("name",struct(inputData("firstname"),inputData("lastname")))

            val udfApply = groupedData.withColumn("newName",processName(groupedData("name")))

           udfApply.show()
          }



             def processName = udf((input:Row) =>{

                println(input)
                println(input.schema)

                Map("firstName" -> input.getAs[String]("firstname"), "lastName" -> input.getAs[String]("lastname"))

              })

        }

Run Code Online (Sandbox Code Playgroud)

输出:

 root
 |-- id: string (nullable = true)
 |-- firstname: string (nullable = true)
 |-- lastname: string (nullable = true) …

Run Code Online (Sandbox Code Playgroud)

struct apache-spark udf

hp2*_*326

2017 03-08

5
推荐指数

1
解决办法

708
查看次数

标签统计

udf ×10

apache-spark ×5

apache-spark-sql ×2

json ×2

mysql ×2

scala ×2

struct ×2

user-defined-functions ×2

amazon-redshift ×1

amazon-web-services ×1

apache-hive ×1

eclipse ×1

excel ×1

excel-vba ×1

hive ×1

hive-udf ×1

homebrew ×1

java ×1

macos ×1

pyspark ×1

pyspark-sql ×1

python ×1

unix ×1

vba ×1

标签 统计

标签统计