%%javascript
IPython.OutputArea.prototype._should_scroll = function(lines) {
return false;
}
%run rl_base.py
Run Code Online (Sandbox Code Playgroud)
我运行此错误,说找不到rl_base.py文件.我已经在colab和我运行我的.ipynb文件的同一个文件夹中上传了相同的文件,包含上面的代码
如果我有一个使用 pickle 或 Joblib 训练过的模型。可以说是逻辑回归或 XGBoost。
我想将该模型作为端点托管在 AWS Sagemaker 中,而不运行训练作业。如何实现这一目标。
#Lets Say myBucketName contains model.pkl
model = joblib.load('filename.pkl')
# X_test = Numpy Array
model.predict(X_test)
Run Code Online (Sandbox Code Playgroud)
我不感兴趣sklearn_estimator.fit('S3 Train, S3 Validate' )
,我有经过训练的模型
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'C': ['C0', 'C1', 'C2', 'C3'],
'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
'B': ['B4', 'B5', 'B6', 'B7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D': ['D4', 'D5', 'D6', 'D7']},
index=[4, 5, 6, 7])
df22 = pd.DataFrame({'A2': ['A4', 'A5', 'A6', 'A7'],
'B2': ['B4', 'B5', 'B6', 'B7'],
'C2': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7']},
index=[4, 5, 6, 7])
frames = …
Run Code Online (Sandbox Code Playgroud) Hive Table 中继其元存储,其中包含表,即 TBLS、SDS INXD ......
是否有任何关于元存储数据模型的文档,包括图表和描述?
既然是开源的,就必须有一个仓库,维护 hive 元存储数据建模,每个 Hive 版本的文档
如何对 id 和 name 两个分组进行 cumcount?例如我有:
id name
1 name1
1 name1
1 name2
2 name3
2 name3
2 name3
Run Code Online (Sandbox Code Playgroud)
我希望它看起来像:
id name cumcount
1 name1 1
1 name1 2
1 name2 1
2 name3 1
2 name3 2
2 name3 3
Run Code Online (Sandbox Code Playgroud)
基本上是 id 中每个名字的运行记录。
Proj_Com_Sum comp_1 comp_2 comp_3 Proj_Val_sum val_1 val_2 val_3
70 10 20 35 67 20 30 15
100 50 30 25 70 25 30 15
Run Code Online (Sandbox Code Playgroud)
Given the above as Pandas DataFrame df, I would like to add a Colunm Com_total , Val_total , Proj_Tot_Diff
Where
Com_total = comp_1 + comp_2 + comp_3
Val_total = val_1 + val_2 + val_3
Proj_Tot_Diff = Com_total - Proj_Com_Sum
Run Code Online (Sandbox Code Playgroud)
Since I have about comp .. it would be a long code to write
Com_total = comp_1 …
Run Code Online (Sandbox Code Playgroud) foreach
DataFrams的Loop 嵌套迭代会抛出 NullPointerException:
def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame): Unit = {
val leftCols: Array[String] = leftDF.columns
val riteCols: Array[String] = riteDF.columns
leftCols.foreach { ltColName =>
leftDF.select(ltColName).foreach { ltRow =>
val leftString = ltRow.apply(0).toString();
// Works ... But Same Kind Of Code Below
riteCols.foreach { rtColName =>
riteDF.select(rtColName).foreach { rtRow => //Exception
val riteString = rtRow.apply(0).toString();
print(leftString.equals(riteString)
}
}
}
}
Run Code Online (Sandbox Code Playgroud)
例外:
java.lang.NullPointerException at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:77) at org.apache.spark.sql.Dataset.org$apache$spark$sql$Dataset$$withPlan(Dataset) .scala:3406) 在 org.apache.spark.sql.Dataset.select(Dataset.scala:1334) 在 org.apache.spark.sql.Dataset.select(Dataset.scala:1352)
可能出了什么问题以及如何解决?
给定数据框df:
df = pd.DataFrame({'Store_ID': [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1],
'Week_ID': [1,1,1,1,1,1,1, 2,2,2,2,2,2,2, 3,3,3,3,3,3,3],
'Day': ['Mo','Tu','We','Th','Fr','Sa','Su','Mo','Tu','We','Th','Fr','Sa','Su','Mo','Tu','We','Th','Fr','Sa','Su'],
'Manager': ['Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash'],
'Store_Opener': ['Jev','Jev','Oash','Kev','Kev','Nash','Jev','Jev','Oash','Kev','Kev','Nash','Jev','Jev','Oash','Kev','Kev','Nash','Kev','Kev','Nash']
})
Run Code Online (Sandbox Code Playgroud)
我想毫不犹豫地喜欢df1。(而且,我想知道我是否可以反向操作或旋转回df)
df1 = pd.DataFrame({'Store_ID': [1,1,1],
'Week_ID': [1,2,3],
'Day_Mo_Manager':['Kev','Kev','Nash'],
'Day_Tu_Manager':['Kev','Nash','Kev'],
'Day_We_Manager':['?','?','?'],
'Day_Th_Manager':['?','?','?'],
'Day_Fr_Manager':['?','?','?'],
'Day_Sa_Manager':['?','?','?'],
'Day_Su_Manager':['?','?','?'],
'Day_Mo_Store_Opener':['Jev','Jev','Oash'],
'Day_Tu_Store_Opener':['Jev','Oash','Jev'],
'Day_We_Store_Opener':['?','?','?'],
'Day_Th_Store_Opener':['?','?','?'],
'Day_Fr_Store_Opener':['?','?','?'],
'Day_Sa_Store_Opener':['?','?','?'],
'Day_Su_Store_Opener':['?','?','?'],
})
Run Code Online (Sandbox Code Playgroud)
有什么方法可以旋转表并取消旋转表,如图所示?灵感来自 我尝试过的Pandas SQL或Spark中的部分透视
df.set_index(['Store_ID','Week_ID'])['Manager']。unstack()
df.pivot_table(index ='Store_ID',columns ='Week_ID',values ='Manager')
但是给了一些错误。
hive 查询的控制流是什么?
假设,我想将 Emp_Table 与 Dept_Table 合并,
流量如何?
它从元存储中的哪个表中获取所有相关信息?
例如,1) Emp_Table 对应的文件在哪里?(HDFS 位置) 2) 表 Emp_Table 的字段名称是什么?3) 包含 Emp_Table 数据的文件中的分隔符是什么?4) 如何将数据分桶或分区,在这种情况下,从哪里(元存储表名称)和如何(查询)给出 HDFS 文件夹位置?
python ×5
pandas ×4
hadoop ×2
hive ×2
python-3.x ×2
apache-spark ×1
dataframe ×1
open-source ×1
scala ×1