小编use*_*922的帖子

如何在colab中运行.py文件

%%javascript
IPython.OutputArea.prototype._should_scroll = function(lines) {
    return false;
}

%run rl_base.py
Run Code Online (Sandbox Code Playgroud)

我运行此错误,说找不到rl_base.py文件.我已经在colab和我运行我的.ipynb文件的同一个文件夹中上传了相同的文件,包含上面的代码

python python-3.x jupyter-notebook google-colaboratory

9
推荐指数
4
解决办法
2万
查看次数

将选定的或 Joblib 预训练的 ML 模型加载到 Sagemaker 并作为端点托管

如果我有一个使用 pickle 或 Joblib 训练过的模型。可以说是逻辑回归或 XGBoost。

我想将该模型作为端点托管在 AWS Sagemaker 中,而不运行训练作业。如何实现这一目标。

#Lets Say myBucketName contains model.pkl
model = joblib.load('filename.pkl')  
# X_test = Numpy Array 
model.predict(X_test)  
Run Code Online (Sandbox Code Playgroud)

我不感兴趣sklearn_estimator.fit('S3 Train, S3 Validate' ),我有经过训练的模型

amazon-web-services python-3.x amazon-sagemaker

5
推荐指数
1
解决办法
2783
查看次数

合并Index上的Panda DataFrame,添加其他列,并且没有重复的索引

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
 'B': ['B0', 'B1', 'B2', 'B3'],
 'C': ['C0', 'C1', 'C2', 'C3'],
 'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
 'B': ['B4', 'B5', 'B6', 'B7'],
 'C': ['C4', 'C5', 'C6', 'C7'],
 'D': ['D4', 'D5', 'D6', 'D7']},
index=[4, 5, 6, 7])

df22 = pd.DataFrame({'A2': ['A4', 'A5', 'A6', 'A7'],
 'B2': ['B4', 'B5', 'B6', 'B7'],
 'C2': ['C4', 'C5', 'C6', 'C7'],
 'D2': ['D4', 'D5', 'D6', 'D7']},
index=[4, 5, 6, 7])

frames = …
Run Code Online (Sandbox Code Playgroud)

python pandas

4
推荐指数
1
解决办法
45
查看次数

HIVE Metastore 数据建模文档?

Hive Table 中继其元存储,其中包含表,即 TBLS、SDS INXD ......

是否有任何关于元存储数据模型的文档,包括图表和描述?

既然是开源的,就必须有一个仓库,维护 hive 元存储数据建模,每个 Hive 版本的文档

open-source hadoop hive

3
推荐指数
1
解决办法
3326
查看次数

Pandas groupby 累积计数

如何对 id 和 name 两个分组进行 cumcount?例如我有:

id  name
1   name1
1   name1
1   name2
2   name3
2   name3
2   name3
Run Code Online (Sandbox Code Playgroud)

我希望它看起来像:

id  name   cumcount
1   name1  1 
1   name1  2
1   name2  1
2   name3  1
2   name3  2
2   name3  3
Run Code Online (Sandbox Code Playgroud)

基本上是 id 中每个名字的运行记录。

python pandas

3
推荐指数
1
解决办法
574
查看次数

How to Specify the 'In Between Columns' sum in a precise notation

Proj_Com_Sum   comp_1   comp_2    comp_3   Proj_Val_sum  val_1  val_2  val_3 
70              10         20      35       67            20      30    15
100             50         30      25       70            25      30    15
Run Code Online (Sandbox Code Playgroud)

Given the above as Pandas DataFrame df, I would like to add a Colunm Com_total , Val_total , Proj_Tot_Diff

Where

Com_total = comp_1 + comp_2 + comp_3
Val_total = val_1 + val_2 + val_3
Proj_Tot_Diff = Com_total - Proj_Com_Sum
Run Code Online (Sandbox Code Playgroud)

Since I have about comp .. it would be a long code to write

Com_total = comp_1 …
Run Code Online (Sandbox Code Playgroud)

python pandas

3
推荐指数
1
解决办法
47
查看次数

每个循环嵌套两个 DataFrame

foreachDataFrams的Loop 嵌套迭代会抛出 NullPointerException:

def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame): Unit = {    
    val leftCols: Array[String] = leftDF.columns
    val riteCols: Array[String] = riteDF.columns

    leftCols.foreach { ltColName =>
        leftDF.select(ltColName).foreach { ltRow =>
            val leftString = ltRow.apply(0).toString();
            // Works ... But Same Kind Of Code Below
            riteCols.foreach { rtColName =>
              riteDF.select(rtColName).foreach { rtRow => //Exception
              val riteString = rtRow.apply(0).toString();
              print(leftString.equals(riteString)
            }
        }
    }

  }
Run Code Online (Sandbox Code Playgroud)

例外:

java.lang.NullPointerException at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:77) at org.apache.spark.sql.Dataset.org$apache$spark$sql$Dataset$$withPlan(Dataset) .scala:3406) 在 org.apache.spark.sql.Dataset.select(Dataset.scala:1334) 在 org.apache.spark.sql.Dataset.select(Dataset.scala:1352)

可能出了什么问题以及如何解决?

scala apache-spark apache-spark-sql

2
推荐指数
1
解决办法
781
查看次数

熊猫数据透视表和联合国数据透视表

给定数据框df:

df = pd.DataFrame({'Store_ID': [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1],
               'Week_ID':  [1,1,1,1,1,1,1, 2,2,2,2,2,2,2, 3,3,3,3,3,3,3],
               'Day': ['Mo','Tu','We','Th','Fr','Sa','Su','Mo','Tu','We','Th','Fr','Sa','Su','Mo','Tu','We','Th','Fr','Sa','Su'],
               'Manager': ['Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash'],
               'Store_Opener': ['Jev','Jev','Oash','Kev','Kev','Nash','Jev','Jev','Oash','Kev','Kev','Nash','Jev','Jev','Oash','Kev','Kev','Nash','Kev','Kev','Nash']
           })
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

我想毫不犹豫地喜欢df1。(而且,我想知道我是否可以反向操作或旋转回df)

df1 = pd.DataFrame({'Store_ID': [1,1,1],
                   'Week_ID':  [1,2,3],
                   'Day_Mo_Manager':['Kev','Kev','Nash'],
                   'Day_Tu_Manager':['Kev','Nash','Kev'],
                   'Day_We_Manager':['?','?','?'],
                   'Day_Th_Manager':['?','?','?'],
                   'Day_Fr_Manager':['?','?','?'],
                   'Day_Sa_Manager':['?','?','?'],
                   'Day_Su_Manager':['?','?','?'],                       
                   'Day_Mo_Store_Opener':['Jev','Jev','Oash'],
                   'Day_Tu_Store_Opener':['Jev','Oash','Jev'],
                   'Day_We_Store_Opener':['?','?','?'],
                   'Day_Th_Store_Opener':['?','?','?'],
                   'Day_Fr_Store_Opener':['?','?','?'],
                   'Day_Sa_Store_Opener':['?','?','?'],
                   'Day_Su_Store_Opener':['?','?','?'],

})
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

有什么方法可以旋转表并取消旋转表,如图所示?灵感来自 我尝试过的Pandas SQL或Spark中的部分透视

df.set_index(['Store_ID','Week_ID'])['Manager']。unstack()

df.pivot_table(index ='Store_ID',columns ='Week_ID',values ='Manager')

但是给了一些错误。

python dataframe pandas

2
推荐指数
1
解决办法
47
查看次数

Hive 查询控制流?

hive 查询的控制流是什么?

假设,我想将 Emp_Table 与 Dept_Table 合并,

流量如何?

它从元存储中的哪个表中获取所有相关信息?

例如,1) Emp_Table 对应的文件在哪里?(HDFS 位置) 2) 表 Emp_Table 的字段名称是什么?3) 包含 Emp_Table 数据的文件中的分隔符是什么?4) 如何将数据分桶或分区,在这种情况下,从哪里(元存储表名称)和如何(查询)给出 HDFS 文件夹位置?

hadoop hive

1
推荐指数
1
解决办法
4880
查看次数