小编Dmi*_*rov的帖子

如何检查Spark RDD是否在内存中？

我有一个org.apache.spark.rdd.RDD [MyClass]的实例.如何以编程方式检查实例是否为persist\inmemory？

in-memory apache-spark rdd

Dmi*_*rov

2015 10-17

8
推荐指数

1
解决办法

2258
查看次数

如何从Spark保存Feather格式\存储文件？

是否可以将数据帧从Apache Spark导出到feather(https://github.com/wesm/feather)文件？

dataframe pandas apache-spark spark-dataframe feather

Dmi*_*rov

2016 09-28

6
推荐指数

1
解决办法

1591
查看次数

是否有必要从我们的 CI 管道提交 DVC 文件？

DVC 使用 git commits 来保存实验并在实验之间导航。

是否可以避免在 CI/CD 中进行自动提交（dvc repro在 CI/CD 端之后保存数据工件）。

git continuous-integration machine-learning dvc mlops

B.P*_*Pai

2020 07-13

6
推荐指数

1
解决办法

696
查看次数

将 Git 非分支引用推送到远程

Git 非分支引用（不是分支、标签、远程和注释）在本地计算机中工作得很好，但我在将它们推送到远程时遇到了麻烦：

$ git update-ref refs/exp/ee01 6a534fb5f9aad615ebeeb9d01ebe558a679a3cd1

Run Code Online (Sandbox Code Playgroud)

就创建成功了：

$ cat .git/refs/exp/ee01
6a534fb5f9aad615ebeeb9d01ebe558a679a3cd1
$ git for-each-ref refs/exp
6a534fb5f9aad615ebeeb9d01ebe558a679a3cd1 commit refs/exp/ee01

Run Code Online (Sandbox Code Playgroud)

推动它：

$ git push origin exp/ee01
Total 0 (delta 0), reused 0 (delta 0)
To https://github.com/dmpetrov/example-get-started-exp.git
 * [new branch]      refs/exp/ee01 -> refs/exp/ee01

Run Code Online (Sandbox Code Playgroud)

但是，当我克隆此存储库时，我没有看到它：

$ git clone https://github.com/dmpetrov/example-get-started-exp.git
$ cd example-get-started-exp/
$ git for-each-ref refs/exp  # it returns nothing

Run Code Online (Sandbox Code Playgroud)

如何正确推送非分支引用？

编辑：我可以通过名称将其获取到 FETCH_HEAD。理想情况下，我应该在不提前知道名称的情况下查看\获取所有新参考文献。

$ git fetch origin exp/ee01
From https://github.com/dmpetrov/example-get-started-exp
 * branch            refs/exp/ee01 -> FETCH_HEAD

Run Code Online (Sandbox Code Playgroud)

git git-remote git-branch

Dmi*_*rov

2020 09-13

5
推荐指数

1
解决办法

431
查看次数

Git：从 GitHub 获取拉取请求

据我了解，GitHub/Lab 使用Git 自定义引用/内部结构将 Pull 请求存储在存储库中。

如何获取克隆存储库中的所有拉取请求？

git github

Dmi*_*rov

lucky-day

5
推荐指数

1
解决办法

466
查看次数

C#LINQ:从数组中删除空值并返回不可为空

我正在将可空数组转换为无法使用的数组.这是我当前的代码,有两个函数调用:

myarray.Where(e => e.HasValue).Select(e => e.Value)

Run Code Online (Sandbox Code Playgroud)

它看起来像一个非常基本的操作.是否有可能在一次通话中这样做？

c# linq

Dmi*_*rov

2016 07-15

3
推荐指数

2
解决办法

1874
查看次数

在spark-SQL而不是spark-scala中创建“临时”表？

我已经从输入文件加载了一个表。

CREATE TABLE MyTable (
    ID INT,
    VALUE FLOAT,
    RATE  INT
...

LOAD DATA LOCAL INPATH 'MYPATH' INTO TABLE MyTable;

Run Code Online (Sandbox Code Playgroud)

现在我想基于这个创建一个新的

DerivedTable = 
    SELECT ID, VALUE*RATE AS Total
    FROM MyTable
    WHERE VALUE IS NOT NULL;

Run Code Online (Sandbox Code Playgroud)

然后我将使用该表作为其他表和输出的源。

创建此“临时”表的正确 Sql（或 Hive）方法是什么？这应该适用于spark-sql？

PS：我知道如何在 Spark-Shell 中做到这一点。但这不是我要找的。

hiveql apache-spark apache-spark-sql

Dmi*_*rov

2017 12-07

0
推荐指数

1
解决办法

1万
查看次数

标签统计

apache-spark ×3

git ×3

apache-spark-sql ×1

c# ×1

continuous-integration ×1

dataframe ×1

dvc ×1

feather ×1

git-branch ×1

git-remote ×1

github ×1

hiveql ×1

in-memory ×1

linq ×1

machine-learning ×1

mlops ×1

pandas ×1

rdd ×1

spark-dataframe ×1

标签 统计

小编Dmi_rov的帖子

标签统计