小编Ale*_*hov的帖子

通过UI将参数传递给Airflow的作业

是否可以通过UI将参数传递给Airflow的作业？

DFA中的AFAIK,'params'参数在python代码中定义,因此无法在运行时更改.

orchestration airflow apache-airflow

Ale*_*hov

2017 11-21

10
推荐指数

2
解决办法

4037
查看次数

气流加密变量

更新后Airflow,1.9所有变量都创建为加密.

是否可以禁用加密？

airflow airflow-scheduler

Ale*_*hov

lucky-day

9
推荐指数

1
解决办法

1313
查看次数

AWS Athena JDBC 查询超时

我通过 JDBC 使用 Amazon Athena。最近我得到了

java.sql.SQLException: Query timeout

Run Code Online (Sandbox Code Playgroud)

对于几个查询，但是当我运行时

println(statement.getQueryTimeout)

Run Code Online (Sandbox Code Playgroud)

我看到“0”表示没有设置查询超时。

如何解决超时异常的问题？

jdbc amazon-athena

Ale*_*hov

2018 05-21

6
推荐指数

1
解决办法

7929
查看次数

通过 AWS 请求 ID 获取请求参数

我收到此日志消息：

com.amazonaws.services.s3.model.AmazonS3Exception：指定的键不存在。（服务：亚马逊S3;状态码：404;错误代码：NoSuchKey;请求ID：request_id; S3扩展请求ID： extended_request_id）

是否有可能得到的参数由请求（在这种情况下，S3键和桶）request_id和extended_request_id？

amazon-s3 amazon-web-services

Ale*_*hov

lucky-day

6
推荐指数

1
解决办法

2万
查看次数

XGBoost Predict_proba 推理性能缓慢

我使用 Scikit-learn 和 XGBoost 在相同数据上训练了 2 个梯度增强模型。

Scikit 学习模型

GradientBoostingClassifier(\n    n_estimators=5,\n    learning_rate=0.17,\n    max_depth=5,\n    verbose=2\n)\n

Run Code Online (Sandbox Code Playgroud)\n

XGBoost模型

XGBClassifier(\n    n_estimators=5,\n    learning_rate=0.17,\n    max_depth=5,\n    verbosity=2,\n    eval_metric="logloss"\n)\n

Run Code Online (Sandbox Code Playgroud)\n

然后我检查了推理性能：

Xgboost：每个循环 9.7 ms \xc2\xb1 84.6 \xc2\xb5s
Scikit-learn：每个循环 426 \xc2\xb5s \xc2\xb1 12.5 \xc2\xb5s

为什么 XGBoost 这么慢？

machine-learning scikit-learn xgboost

Ale*_*hov

2023 06-19

6
推荐指数

1
解决办法

2578
查看次数

使用tar.gz文件作为Amazon Athena的源代码

如果我将Amazon S3上的*.tsv文件定义为Athena表的源并使用OpenCSVSerde或LazySimpleSerDe作为反序列化器,则它可以正常工作.但是,如果我定义包含*.tsv文件的*.tar.gz文件,我会在表中看到几个奇怪的行(例如,一行包含tsv文件名和几行空行).在Athena中使用tar.gz文件的正确方法是什么？

amazon-s3 amazon-web-services amazon-athena

Ale*_*hov

lucky-day

4
推荐指数

1
解决办法

677
查看次数

使用Apache Spark在TFIDF上的余弦相似度

我正在尝试使用Apache Spark在TFIDF上计算余弦相似度矩阵。这是我的代码：

def cosSim(input: RDD[Seq[String]]) = {
  val hashingTF = new HashingTF()
  val tf = hashingTF.transform(input)
  tf.cache()
  val idf = new IDF().fit(tf)
  val tfidf = idf.transform(tf)
  val mat = new RowMatrix(tfidf)
  val sim = mat.columnSimilarities
  sim
}

Run Code Online (Sandbox Code Playgroud)

我在输入中大约有3000行，但是如果我执行sim.numRows（）或sim.numCols（），我会看到1048576而不是3K，据我了解，这是因为val tfidf和val mat的大小均为3K * 1048576其中1048576是tf功能的数量。也许要解决这个问题，我必须移调垫子，但是我不知道该怎么做。

scala tf-idf cosine-similarity apache-spark apache-spark-mllib

Ale*_*hov

lucky-day

1
推荐指数

1
解决办法

2633
查看次数