小编Sha*_*yHa的帖子

使用 pandas nunique() 和 unique() 的不同结果

我有一个很大DF的10 millions行，我需要找到每列的唯一编号。

我写了下面的函数：（需要返回一个系列）

def count_unique_values(df):
    return pd.Series(df.nunique())

Run Code Online (Sandbox Code Playgroud)

我得到这个输出：

Area          210
Item          436
Element         4
Year           53
Unit            2
Value      313640
dtype: int64

Run Code Online (Sandbox Code Playgroud)

预期结果应为值 313641。

当我做

df['Value'].unique()

Run Code Online (Sandbox Code Playgroud)

我确实得到了那个答案。不明白为什么我nunique()在那里得到的更少。

unique dataframe pandas

Sha*_*yHa

2019 05-26

9
推荐指数

1
解决办法

8470
查看次数

自动将新列添加到增量（或其他类型）

对于我试图解决的新 DBT 用例，我需要一些智慧。我对 DBT 很陌生，不确定什么是最有效的 DBT 方法。我们使用雪花作为 DWH。

问题

我们有很多使用 DBT 管理的增量模型。最近，我们需要向所有模型添加一个新列。最有效的 DBT 方法是什么？我们应该覆盖增量宏脚本吗？（我为雪花找到了这个。）我认为最后的手段是将新列手动添加到每个模型。

snowflake-cloud-data-platform dbt

Sha*_*yHa

2021 12-18

6
推荐指数

1
解决办法

6626
查看次数

Postgresql获取数组中最常见的值

我有一个包含数组值列的表（在 group by 和 array_agg 函数之后）

COLUMN_VALUE          | other_columns...
-----------:          | -------:
 {0.45,0.45,0.97,0.99}|        ..
 {0.45,0.45,0.85,0.99}|        ..
 {0.45,0.45,0.77,0.99}|        ..
 {0.45,0.45,0.10,0.99}|        ..

Run Code Online (Sandbox Code Playgroud)

如何获得最频繁的值？（本例中每行 0.45）

我的猜测再次是 unnest 和 groupby，但我正在尝试找到更强大、更快的东西。

我用来构建表的查询

COLUMN_VALUE          | other_columns...
-----------:          | -------:
 {0.45,0.45,0.97,0.99}|        ..
 {0.45,0.45,0.85,0.99}|        ..
 {0.45,0.45,0.77,0.99}|        ..
 {0.45,0.45,0.10,0.99}|        ..

Run Code Online (Sandbox Code Playgroud)

sql postgresql aggregate-functions

Sha*_*yHa

2020 08-13

2
推荐指数

1
解决办法

1911
查看次数