小编Dmi*_*rov的帖子

如何检查Spark RDD是否在内存中?

我有一个org.apache.spark.rdd.RDD [MyClass]的实例.如何以编程方式检查实例是否为persist\inmemory?

in-memory apache-spark rdd

8
推荐指数
1
解决办法
2258
查看次数

6
推荐指数
1
解决办法
1591
查看次数

是否有必要从我们的 CI 管道提交 DVC 文件?

DVC 使用 git commits 来保存实验并在实验之间导航。

是否可以避免在 CI/CD 中进行自动提交(dvc repro在 CI/CD 端之后保存数据工件)。

git continuous-integration machine-learning dvc mlops

6
推荐指数
1
解决办法
696
查看次数

将 Git 非分支引用推送到远程

Git 非分支引用(不是分支、标签、远程和注释)在本地计算机中工作得很好,但我在将它们推送到远程时遇到了麻烦:

$ git update-ref refs/exp/ee01 6a534fb5f9aad615ebeeb9d01ebe558a679a3cd1
Run Code Online (Sandbox Code Playgroud)

就创建成功了:

$ cat .git/refs/exp/ee01
6a534fb5f9aad615ebeeb9d01ebe558a679a3cd1
$ git for-each-ref refs/exp
6a534fb5f9aad615ebeeb9d01ebe558a679a3cd1 commit refs/exp/ee01
Run Code Online (Sandbox Code Playgroud)

推动它:

$ git push origin exp/ee01
Total 0 (delta 0), reused 0 (delta 0)
To https://github.com/dmpetrov/example-get-started-exp.git
 * [new branch]      refs/exp/ee01 -> refs/exp/ee01
Run Code Online (Sandbox Code Playgroud)

但是,当我克隆此存储库时,我没有看到它:

$ git clone https://github.com/dmpetrov/example-get-started-exp.git
$ cd example-get-started-exp/
$ git for-each-ref refs/exp  # it returns nothing
Run Code Online (Sandbox Code Playgroud)

如何正确推送非分支引用?

编辑:我可以通过名称将其获取到 FETCH_HEAD。理想情况下,我应该在不提前知道名称的情况下查看\获取所有新参考文献。

$ git fetch origin exp/ee01
From https://github.com/dmpetrov/example-get-started-exp
 * branch            refs/exp/ee01 -> FETCH_HEAD
Run Code Online (Sandbox Code Playgroud)

git git-remote git-branch

5
推荐指数
1
解决办法
431
查看次数

Git:从 GitHub 获取拉取请求

据我了解,GitHub/Lab 使用Git 自定义引用/内部结构将 Pull 请求存储在存储库中。

如何获取克隆存储库中的所有拉取请求?

git github

5
推荐指数
1
解决办法
466
查看次数

C#LINQ:从数组中删除空值并返回不可为空

我正在将可空数组转换为无法使用的数组.这是我当前的代码,有两个函数调用:

myarray.Where(e => e.HasValue).Select(e => e.Value)
Run Code Online (Sandbox Code Playgroud)

它看起来像一个非常基本的操作.是否有可能在一次通话中这样做?

c# linq

3
推荐指数
2
解决办法
1874
查看次数

在spark-SQL而不是spark-scala中创建“临时”表?

我已经从输入文件加载了一个表。

CREATE TABLE MyTable (
    ID INT,
    VALUE FLOAT,
    RATE  INT
...

LOAD DATA LOCAL INPATH 'MYPATH' INTO TABLE MyTable;
Run Code Online (Sandbox Code Playgroud)

现在我想基于这个创建一个新的

DerivedTable = 
    SELECT ID, VALUE*RATE AS Total
    FROM MyTable
    WHERE VALUE IS NOT NULL;
Run Code Online (Sandbox Code Playgroud)

然后我将使用该表作为其他表和输出的源。

创建此“临时”表的正确 Sql(或 Hive)方法是什么?这应该适用于spark-sql

PS:我知道如何在 Spark-Shell 中做到这一点。但这不是我要找的。

hiveql apache-spark apache-spark-sql

0
推荐指数
1
解决办法
1万
查看次数