小编Ale*_*hov的帖子

通过UI将参数传递给Airflow的作业

是否可以通过UI将参数传递给Airflow的作业?

DFA中的AFAIK,'params'参数在python代码中定义,因此无法在运行时更改.

orchestration airflow apache-airflow

10
推荐指数
2
解决办法
4037
查看次数

气流加密变量

更新后Airflow,1.9所有变量都创建为加密.

是否可以禁用加密?

airflow airflow-scheduler

9
推荐指数
1
解决办法
1313
查看次数

AWS Athena JDBC 查询超时

我通过 JDBC 使用 Amazon Athena。最近我得到了

java.sql.SQLException: Query timeout
Run Code Online (Sandbox Code Playgroud)

对于几个查询,但是当我运行时

println(statement.getQueryTimeout)
Run Code Online (Sandbox Code Playgroud)

我看到“0”表示没有设置查询超时。

如何解决超时异常的问题?

jdbc amazon-athena

6
推荐指数
1
解决办法
7929
查看次数

通过 AWS 请求 ID 获取请求参数

我收到此日志消息:

com.amazonaws.services.s3.model.AmazonS3Exception:指定的键不存在。(服务:亚马逊S3;状态码:404;错误代码:NoSuchKey;请求ID:request_id; S3扩展请求ID: extended_request_id

是否有可能得到的参数由请求(在这种情况下,S3键和桶)request_idextended_request_id

amazon-s3 amazon-web-services

6
推荐指数
1
解决办法
2万
查看次数

XGBoost Predict_proba 推理性能缓慢

我使用 Scikit-learn 和 XGBoost 在相同数据上训练了 2 个梯度增强模型。

\n

Scikit 学习模型

\n
GradientBoostingClassifier(\n    n_estimators=5,\n    learning_rate=0.17,\n    max_depth=5,\n    verbose=2\n)\n
Run Code Online (Sandbox Code Playgroud)\n

XGBoost模型

\n
XGBClassifier(\n    n_estimators=5,\n    learning_rate=0.17,\n    max_depth=5,\n    verbosity=2,\n    eval_metric="logloss"\n)\n
Run Code Online (Sandbox Code Playgroud)\n

然后我检查了推理性能:

\n
    \n
  • Xgboost:每个循环 9.7 ms \xc2\xb1 84.6 \xc2\xb5s
  • \n
  • Scikit-learn:每个循环 426 \xc2\xb5s \xc2\xb1 12.5 \xc2\xb5s
  • \n
\n

为什么 XGBoost 这么慢?

\n

machine-learning scikit-learn xgboost

6
推荐指数
1
解决办法
2578
查看次数

使用tar.gz文件作为Amazon Athena的源代码

如果我将Amazon S3上的*.tsv文件定义为Athena表的源并使用OpenCSVSerde或LazySimpleSerDe作为反序列化器,则它可以正常工作.但是,如果我定义包含*.tsv文件的*.tar.gz文件,我会在表中看到几个奇怪的行(例如,一行包含tsv文件名和几行空行).在Athena中使用tar.gz文件的正确方法是什么?

amazon-s3 amazon-web-services amazon-athena

4
推荐指数
1
解决办法
677
查看次数

使用Apache Spark在TFIDF上的余弦相似度

我正在尝试使用Apache Spark在TFIDF上计算余弦相似度矩阵。这是我的代码:

def cosSim(input: RDD[Seq[String]]) = {
  val hashingTF = new HashingTF()
  val tf = hashingTF.transform(input)
  tf.cache()
  val idf = new IDF().fit(tf)
  val tfidf = idf.transform(tf)
  val mat = new RowMatrix(tfidf)
  val sim = mat.columnSimilarities
  sim
}
Run Code Online (Sandbox Code Playgroud)

我在输入中大约有3000行,但是如果我执行sim.numRows()或sim.numCols(),我会看到1048576而不是3K,据我了解,这是因为val tfidf和val mat的大小均为3K * 1048576其中1048576是tf功能的数量。也许要解决这个问题,我必须移调垫子,但是我不知道该怎么做。

scala tf-idf cosine-similarity apache-spark apache-spark-mllib

1
推荐指数
1
解决办法
2633
查看次数