具有 2 列以上的枢轴(使用 CROSSTAB?)

dw8*_*547 3 postgresql pivot postgresql-9.4

我有一个deflator定义为的表:

               Table "deflator"
    Column   |       Type        | Modifiers
-------------+-------------------+-----------
country_code | smallint          | not null
country_name | character varying | not null
year         | smallint          | not null
deflator     | numeric           |
source       | character varying |
Run Code Online (Sandbox Code Playgroud)

此表的示例输出如下所示:

country_code | country_name  | year | deflator | source
-------------+---------------+------+----------+----------
           1 | country_1     | 2016 |       12 | source_1
           1 | country_1     | 2015 |       11 | source_2
           1 | country_1     | 2014 |       10 | source_2
           2 | country_2     | 2016 |       15 | source_1
           2 | country_2     | 2015 |       14 | source_1
           2 | country_2     | 2014 |       13 | source_2
           3 | country_3     | 2016 |       18 | source_1
           3 | country_3     | 2015 |       17 | source_2
           3 | country_3     | 2014 |       16 | source_3
(9 rows)
Run Code Online (Sandbox Code Playgroud)

如果排除列,我将source使用以下查询来透视表:

SELECT
    *
FROM CROSSTAB (
    'SELECT
        country_code
        , country_name
        , year
        , deflator
     FROM dimension.master_oecd_deflator
     ORDER BY 1;'
     , $$ VALUES ('2014'::TEXT), ('2015'::TEXT), ('2016'::TEXT) $$
) AS "ct" (
    "country_code" SMALLINT
    , "country_name" TEXT
    , "2014" NUMERIC
    , "2015" NUMERIC
    , "2016" NUMERIC
);
Run Code Online (Sandbox Code Playgroud)

上面的查询给了我:

country_code |   country_name    | 2016 | 2015 | 2014 |
-------------+-------------------+------+--- --+------+
           1 | country_1         | 12   | 11   | 10   |
           2 | country_2         | 15   | 14   | 13   |
           3 | country_3         | 18   | 17   | 16   |
Run Code Online (Sandbox Code Playgroud)

但是因为每个国家/地区的平减指数的来源每年都不同,所以我想source在数据透视中包含该列,以使我想要的输出看起来像:

country_code |   country_name    | 2016 | 2016_source | 2015 | 2015_source | 2014 | 2014_source
-------------+-------------------+------+-------------+------+-------------+------+------------
           1 | country_1         | 12   | source_1    | 11   | source_2    | 10   | source_2
           2 | country_2         | 15   | source_1    | 14   | source_1    | 13   | source_2
           3 | country_3         | 18   | source_1    | 17   | source_2    | 16   | source_3
Run Code Online (Sandbox Code Playgroud)

如何修改此查询以提供所需的输出?(在年份旁边列出了每年的来源)。这甚至可能吗?

Erw*_*ter 5

萨达姆有一个聪明的解决方案,但它也有一些弱点。想象一个名为'Fresno, CA'的源(字符串中带有逗号)。split_part()会被字符串中的分隔符所迷惑......

为了避免这种极端情况问题并保留原始数据类型,请改用(定义良好!)行类型。您可以使用以下命令永久创建复合类型CREATE TYPE或注册一个临时类型CREATE TEMP TABLE

CREATE TEMP TABLE defso (def numeric, so varchar);  -- once per session!

SELECT country_code
     , country_name
     , (d14).def AS deflator_2014  -- note the parentheses!
     , (d14).so  AS source_2014
     , (d15).def AS deflator_2015
     , (d15).so  AS source_2015
     , (d16).def AS deflator_2016
     , (d16).so  AS source_2016
FROM   crosstab (
    'SELECT country_code, country_name, year, (deflator, source)::defso
     FROM   deflator
     ORDER  BY 1'
  , 'SELECT generate_series(2014, 2016)::int2'
   ) AS ct (country_code int2
          , country_name text
          , d14 defso
          , d15 defso
          , d16 defso
   );
Run Code Online (Sandbox Code Playgroud)

我还删除了不必要的 CTE 并进行了一些简化。


虽然只处理一整年的手,但您可以不用crosstab()并使用自联接:

SELECT country_code, country_name
     , d14.deflator AS deflator_2014
     , d14.source   AS source_2014
     , d15.deflator AS deflator_2015
     , d15.source   AS source_2015
     , d16.deflator AS deflator_2016
     , d16.source   AS source_2016
FROM        (SELECT * FROM deflator WHERE year = int2 '2014') d14
FULL   JOIN (SELECT * FROM deflator WHERE year = int2 '2015') d15 USING (country_code, country_name)
FULL   JOIN (SELECT * FROM deflator WHERE year = int2 '2016') d16 USING (country_code, country_name)
ORDER  BY country_code;
Run Code Online (Sandbox Code Playgroud)

使用FULL [OUTER] JOIN,因为我们无法承担一排每个组合(country_code, year)。这样我们就得到了与上面的交叉表查询相同的结果。

包括country_name在连接条件中似乎是多余的,但如果我们不这样做,我们必须使用COALESCE(d14.country_name, d15.country_name, d16.country_name) AS country_name来防止丢失的行。这个依赖于功能的值不应该出现在表中。应该在country正确规范化模式的表中。