小编use*_*922的帖子

如何在colab中运行.py文件

%%javascript
IPython.OutputArea.prototype._should_scroll = function(lines) {
    return false;
}

%run rl_base.py

Run Code Online (Sandbox Code Playgroud)

我运行此错误,说找不到rl_base.py文件.我已经在colab和我运行我的.ipynb文件的同一个文件夹中上传了相同的文件,包含上面的代码

python python-3.x jupyter-notebook google-colaboratory

use*_*922

2019 11-13

9
推荐指数

4
解决办法

2万
查看次数

将选定的或 Joblib 预训练的 ML 模型加载到 Sagemaker 并作为端点托管

如果我有一个使用 pickle 或 Joblib 训练过的模型。可以说是逻辑回归或 XGBoost。

我想将该模型作为端点托管在 AWS Sagemaker 中，而不运行训练作业。如何实现这一目标。

#Lets Say myBucketName contains model.pkl
model = joblib.load('filename.pkl')  
# X_test = Numpy Array 
model.predict(X_test)

Run Code Online (Sandbox Code Playgroud)

我不感兴趣sklearn_estimator.fit('S3 Train, S3 Validate' )，我有经过训练的模型

amazon-web-services python-3.x amazon-sagemaker

use*_*922

lucky-day

5
推荐指数

1
解决办法

2783
查看次数

合并Index上的Panda DataFrame，添加其他列，并且没有重复的索引

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
 'B': ['B0', 'B1', 'B2', 'B3'],
 'C': ['C0', 'C1', 'C2', 'C3'],
 'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
 'B': ['B4', 'B5', 'B6', 'B7'],
 'C': ['C4', 'C5', 'C6', 'C7'],
 'D': ['D4', 'D5', 'D6', 'D7']},
index=[4, 5, 6, 7])

df22 = pd.DataFrame({'A2': ['A4', 'A5', 'A6', 'A7'],
 'B2': ['B4', 'B5', 'B6', 'B7'],
 'C2': ['C4', 'C5', 'C6', 'C7'],
 'D2': ['D4', 'D5', 'D6', 'D7']},
index=[4, 5, 6, 7])

frames = …

Run Code Online (Sandbox Code Playgroud)

python pandas

use*_*922

lucky-day

4
推荐指数

1
解决办法

45
查看次数

HIVE Metastore 数据建模文档？

Hive Table 中继其元存储，其中包含表，即 TBLS、SDS INXD ......

是否有任何关于元存储数据模型的文档，包括图表和描述？

既然是开源的，就必须有一个仓库，维护 hive 元存储数据建模，每个 Hive 版本的文档

open-source hadoop hive

use*_*922

lucky-day

3
推荐指数

1
解决办法

3326
查看次数

Pandas groupby 累积计数

如何对 id 和 name 两个分组进行 cumcount？例如我有：

id  name
1   name1
1   name1
1   name2
2   name3
2   name3
2   name3

Run Code Online (Sandbox Code Playgroud)

我希望它看起来像：

id  name   cumcount
1   name1  1 
1   name1  2
1   name2  1
2   name3  1
2   name3  2
2   name3  3

Run Code Online (Sandbox Code Playgroud)

基本上是 id 中每个名字的运行记录。

python pandas

spi*_*edd

2019 08-20

3
推荐指数

1
解决办法

574
查看次数

How to Specify the 'In Between Columns' sum in a precise notation

Proj_Com_Sum   comp_1   comp_2    comp_3   Proj_Val_sum  val_1  val_2  val_3 
70              10         20      35       67            20      30    15
100             50         30      25       70            25      30    15

Run Code Online (Sandbox Code Playgroud)

Given the above as Pandas DataFrame df, I would like to add a Colunm Com_total , Val_total , Proj_Tot_Diff

Where

Com_total = comp_1 + comp_2 + comp_3
Val_total = val_1 + val_2 + val_3
Proj_Tot_Diff = Com_total - Proj_Com_Sum

Run Code Online (Sandbox Code Playgroud)

Since I have about comp .. it would be a long code to write

Com_total = comp_1 …

Run Code Online (Sandbox Code Playgroud)

python pandas

use*_*922

2019 07-03

3
推荐指数

1
解决办法

47
查看次数

每个循环嵌套两个 DataFrame

foreachDataFrams的Loop 嵌套迭代会抛出 NullPointerException：

def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame): Unit = {    
    val leftCols: Array[String] = leftDF.columns
    val riteCols: Array[String] = riteDF.columns

    leftCols.foreach { ltColName =>
        leftDF.select(ltColName).foreach { ltRow =>
            val leftString = ltRow.apply(0).toString();
            // Works ... But Same Kind Of Code Below
            riteCols.foreach { rtColName =>
              riteDF.select(rtColName).foreach { rtRow => //Exception
              val riteString = rtRow.apply(0).toString();
              print(leftString.equals(riteString)
            }
        }
    }

  }

Run Code Online (Sandbox Code Playgroud)

例外：

java.lang.NullPointerException at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:77) at org.apache.spark.sql.Dataset.org$apache$spark$sql$Dataset$$withPlan(Dataset) .scala:3406) 在 org.apache.spark.sql.Dataset.select(Dataset.scala:1334) 在 org.apache.spark.sql.Dataset.select(Dataset.scala:1352)

可能出了什么问题以及如何解决？

scala apache-spark apache-spark-sql

use*_*922

2019 05-09

2
推荐指数

1
解决办法

781
查看次数

熊猫数据透视表和联合国数据透视表

给定数据框df：

df = pd.DataFrame({'Store_ID': [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1],
               'Week_ID':  [1,1,1,1,1,1,1, 2,2,2,2,2,2,2, 3,3,3,3,3,3,3],
               'Day': ['Mo','Tu','We','Th','Fr','Sa','Su','Mo','Tu','We','Th','Fr','Sa','Su','Mo','Tu','We','Th','Fr','Sa','Su'],
               'Manager': ['Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash','Kev','Kev','Nash'],
               'Store_Opener': ['Jev','Jev','Oash','Kev','Kev','Nash','Jev','Jev','Oash','Kev','Kev','Nash','Jev','Jev','Oash','Kev','Kev','Nash','Kev','Kev','Nash']
           })

Run Code Online (Sandbox Code Playgroud)

我想毫不犹豫地喜欢df1。（而且，我想知道我是否可以反向操作或旋转回df）

df1 = pd.DataFrame({'Store_ID': [1,1,1],
                   'Week_ID':  [1,2,3],
                   'Day_Mo_Manager':['Kev','Kev','Nash'],
                   'Day_Tu_Manager':['Kev','Nash','Kev'],
                   'Day_We_Manager':['?','?','?'],
                   'Day_Th_Manager':['?','?','?'],
                   'Day_Fr_Manager':['?','?','?'],
                   'Day_Sa_Manager':['?','?','?'],
                   'Day_Su_Manager':['?','?','?'],                       
                   'Day_Mo_Store_Opener':['Jev','Jev','Oash'],
                   'Day_Tu_Store_Opener':['Jev','Oash','Jev'],
                   'Day_We_Store_Opener':['?','?','?'],
                   'Day_Th_Store_Opener':['?','?','?'],
                   'Day_Fr_Store_Opener':['?','?','?'],
                   'Day_Sa_Store_Opener':['?','?','?'],
                   'Day_Su_Store_Opener':['?','?','?'],

})

Run Code Online (Sandbox Code Playgroud)