使用 C++11 异步功能的管道数据流

val vectorAssembler = new VectorAssembler()
    .setInputCols(df.columns
      .filter(!_.contains("target"))
      .filter(!_.contains("idNumber")))
    .setOutputCol("features")

Run Code Online (Sandbox Code Playgroud)

编辑

的初始 df

---+------+---+-
|foo|   id|baz|
+---+------+---+
|  0| 1    |  A|
|  1|2     |  A|
|  0| 3    |  null|
|  1| 4    |  C|
+---+------+---+

Run Code Online (Sandbox Code Playgroud)

将转换如下。您可以看到 nan 值将被归入最频繁的原始列和一些派生的特征，例如，如此处所述isA，如果 baz 是 A，则为 1，否则为 0，如果最初为空 N

+---+------+---+-------+
|foo|id    |baz| isA    |
+---+------+---+-------+
|  0| 1    |  A| 1      |
|  1|2     |  A|1       |
|  0| 3    |   A|    n …

Run Code Online (Sandbox Code Playgroud)

pipeline apache-spark apache-spark-ml

Geo*_*ler

2017 01-12

1
推荐指数

1
解决办法

1239
查看次数

在shell中处理json时如何正确地将多个jq语句链接在一起，例如curl？

我是 jq 的新手，所以如果这不是 jq 问题或 json 问题，请指出正确的方向。我不确定正确的术语，所以我很难正确地阐明问题。

我正在使用 curl 来提取一些我想过滤掉具有特定值的键的 json。以下是一些示例 json：

{
  "id": "593f468c81aaa30001960e16",
  "name": "Name 1",
  "channels": [
    "593f38398481bc00019632e5"
  ],
  "geofenceProfileId": null
}
{
  "id": "58e464585180ac000a748b57",
  "name": "Name 2",
  "channels": [
    "58b480097f04f20007f3cdca",
    "580ea26616de060006000001"
  ],
  "geofenceProfileId": null
}
{
  "id": "58b4d6db7f04f20007f3cdd2",
  "name": "Name 3",
  "channels": [
    "58b8a25cf9f6e19cf671872f"
  ],
  "geofenceProfileId": "57f53018271c810006000001"
}

Run Code Online (Sandbox Code Playgroud)

当我运行以下命令时：

curl -X GET -H 'authorization: Basic somestring=' "https://myserver/myjson" |
  jq '.[] | {id: .id, name: .name, channels: .channels, geofenceProfileId: .geofenceProfileId}' |
  jq '.[] | select(.channels == 58b8a25cf9f6e19cf671872f)' …

Run Code Online (Sandbox Code Playgroud)

json curl pipeline jq

Jos*_*hak

2017 11-13

1
推荐指数

1
解决办法

4731
查看次数

sklearn 中估算器管道的参数 clf 无效

任何人都可以检查以下代码的问题吗？我在构建模型的任何步骤中都错了吗？我已经在参数中添加了两个“clf__”。

clf=RandomForestClassifier()
pca = PCA()
pca_clf = make_pipeline(pca, clf) 


kfold = KFold(n_splits=10, random_state=22)



parameters = {'clf__n_estimators': [4, 6, 9], 'clf__max_features': ['log2', 
'sqrt','auto'],'clf__criterion': ['entropy', 'gini'], 'clf__max_depth': [2, 
 3, 5, 10], 'clf__min_samples_split': [2, 3, 5],
'clf__min_samples_leaf': [1,5,8] }

grid_RF=GridSearchCV(pca_clf,param_grid=parameters,
        scoring='accuracy',cv=kfold)
grid_RF = grid_RF.fit(X_train, y_train)
clf = grid_RF.best_estimator_
clf.fit(X_train, y_train)
grid_RF.best_score_

cv_result = cross_val_score(clf,X_train,y_train, cv = kfold,scoring = 
"accuracy")

cv_result.mean()

Run Code Online (Sandbox Code Playgroud)

python pipeline pca scikit-learn

Col*_*ion

2018 07-12

1
推荐指数

1
解决办法

9599
查看次数

这是异步流水线操作员吗？

如果我们定义这样的|>!运算符怎么办:

let (|>!) a f = async {
    let! r = a
    return f r
}

Run Code Online (Sandbox Code Playgroud)

然后而不是写作

let! r = fetchAsync()
work r

Run Code Online (Sandbox Code Playgroud)

我们可以写

fetchAsync() |>! work

Run Code Online (Sandbox Code Playgroud)

这是一个好主意还是会产生效率低下的代码？

f# asynchronous pipeline

Ray*_*Ray

2018 09-02

1
推荐指数

1
解决办法

63
查看次数

流水线处理器中时钟寄存器的目的是什么

嗨，我正在阅读一本描述 CPU 流水线设计的教科书。我不明白为什么我们仍然需要时钟寄存器？例如，如下图所示：

如果我们能把三个寄存器都去掉，就可以节省60ps，因为我们只需要处理器继续执行指令，所以当一个comb逻辑完成时，也就是下一条指令应该开始执行的时候，为什么我们需要时钟周期来手动控制开始执行指令？

cpu pipeline cycle cpu-architecture cpu-registers

amj*_*jad

lucky-day

1
推荐指数

1
解决办法

238
查看次数

对 FeatureUnions (pandas) 工作的理解混乱

我正在学习 Pandas 中的管道和功能联合。我了解管道的工作，这有助于将一系列转换应用于给定的数据集。但是，我对功能联合感到困惑。我已经阅读了文档，其中说变压器是并行应用的，然后将结果连接起来。

我对此有疑问，如果我们将所有转换器应用于整个数据集或不同的转换器仅应用于选定的特征？如果到整个数据集，我们如何连接结果？另外，是否有任何我应该使用 FeatureUnion 的一般用例？

python pipeline pandas scikit-learn

bks*_*shi

2018 10-05

1
推荐指数

1
解决办法

1078
查看次数

焦油和头-1的组合不能按预期工作

我正在编写一个脚本,需要解压缩文件,然后切换到使用cd注释解压缩的第一个文件夹.

我所做的是以下内容:

    filename_2=$(tar zxvf ${filename} | head -1) 
    cd $filename_2

Run Code Online (Sandbox Code Playgroud)

并按预期工作,但它不解压缩tar.gz文件中的所有文件,不知道为什么,因为如果我这样做:

    filename_2=$(tar zxvf ${filename})

Run Code Online (Sandbox Code Playgroud)

它将解压缩一切正常,但后来我不知道如何访问解压缩产生的第一个文件夹.

我不明白|管道如何影响以前的命令.

我究竟做错了什么？

谢谢.

bash pipeline tar

DDD*_*XXX

lucky-day

1
推荐指数

1
解决办法

27
查看次数

什么是WAW危害？

维基百科的危害（计算机体系结构）文章：

写后写（WAW）（i2试图在写操作数之前写操作数i1）在并发执行环境中可能发生写后写（WAW）数据危险。

示例例如：
i1. R2 <- R4 + R7   
i2. R2 <- R1 + R3   
Run Code Online (Sandbox Code Playgroud)
的写回（WB）i2必须延迟到i1完成执行为止。