使用Python的Hive UDF

use*_*463 3 python hadoop hive pandas

我是python,pandas和hive的新手,肯定会欣赏一些提示.

我有下面的python代码,我想在hive中变成一个UDF.只是不是将csv作为输入,进行转换然后导出另一个csv,我想将hive表作为输入,然后将结果导出为包含转换数据的新hive表.

Python代码:

import pandas as pd
data = pd.read_csv('Input.csv')
df = data
df = df.set_index(['Field1','Field2'])
Dummies=pd.get_dummies(df['Field3']).reset_index()
df2=Dummies.drop_duplicates()
df3=df2.groupby(['Field1','Field2']).sum()
df3.to_csv('Output.csv')
Run Code Online (Sandbox Code Playgroud)

vis*_*akh 10

您可以使用该TRANSFORM函数来使用Python编写的UDF.这里这里概述详细步骤.

  • 第一个链接已死 (2认同)