是否可以在具有不同键的 SAS 数据步骤中将两个以上的数据集合并在一起?

can*_*ack 3 merge sas

这在 (PROC) SQL 中非常简单,但是通过数据步骤进行操作时,我发现严重缺乏有关该主题的文档。

大多数多数据集合并具有在 BY 语句中使用的相同键。

Joe*_*Joe 5

从技术上讲,即使使用该merge语句也可以做到这一点,这可能会让大多数人感到惊讶。有时,您甚至会得到您期望的数据。

这按预期工作:

proc means data=sashelp.class;
  class age;
  types age;
  var height;
  output out=mean_height_age mean= /autoname;
run;

proc means data=sashelp.class;
  class age sex;
  types age*sex;
  var weight;
  output out=mean_weight_sex mean= /autoname;
run;

proc sort data=sashelp.class out=class;
  by age sex;
run;


data class_means;
  merge class mean_height_age;
  by age;
  merge class mean_weight_sex;
  by age sex;
run;
Run Code Online (Sandbox Code Playgroud)

这些工作是因为顺序并不矛盾(第二个by与第一个兼容by)。

但是,如果您更多地考虑具有完全独立的合并键的关系数据库类型的事情,则有可能诱使 SAS 做一些看似有效但实际上并不有效的事情。请注意,当涉及到年龄时,最终的数据集似乎有点混乱 - 这是因为第二个合并语句中的传入行class_index覆盖了第一组记录,并且以不同的顺序(根据索引)出现。

proc means data=sashelp.class;
  class age;
  types age;
  var height;
  output out=mean_height_age mean= /autoname;
run;

proc means data=sashelp.class;
  class sex;
  types sex;
  var weight;
  output out=mean_weight_sex mean= /autoname;
run;

data class_index(index=(sex) index=(age));
  set class;
run;


data class_means;
  merge class_index mean_height_age;
  by age;
  merge class_index mean_weight_sex;
  by sex;
run;
Run Code Online (Sandbox Code Playgroud)

您可以通过再次重新设置class_index数据集来清楚地看到这一点。

data class_means;
  merge class_index mean_height_age;
  by age;
  merge class_index mean_weight_sex;
  by sex;
  set class_index;
  by age;
run;
Run Code Online (Sandbox Code Playgroud)

回到按年龄正确,但按性别错误。


如果你打算这样做(两个独立的、不相关的键),你有很多选择。最常用的可能是用户定义的格式。这使用格式查找表来存储关系,然后您只需put(或者input如果您想要一个数字,但input(put(如果您必须制作格式而不是信息,则可能必须这样做)。

data for_fmt_age;
  set mean_height_age;
  start = age;
  label = height_mean;
  fmtname='HEIGHTAGEF';
  output;
run;


data for_fmt_sex;
  set mean_weight_sex;
  start = sex;
  label = weight_mean;
  fmtname='$WEIGHTSEXF';
  output;
run;
proc format cntlin=for_fmt_sex;
quit;

proc format cntlin=for_fmt_age;
quit;


data want;
  set sashelp.class;
  mean_height = put(age,heightagef.);
  mean_weight = put(sex,$weightsexf.);
run;
Run Code Online (Sandbox Code Playgroud)

第二个选项是键控集;这与合并最相似,并且只需要在合并的数据集上创建索引。

proc datasets lib=work;
  modify mean_height_age;
  index create age;
  run;
  modify mean_weight_sex;
  index create sex;
  run;
quit;

data class_nomerge;
  set class_index;
  set mean_height_age key=age;
  set mean_weight_sex key=sex;
run;
Run Code Online (Sandbox Code Playgroud)

最后,您可以使用哈希表,它有点深奥但非常易于使用。无需排序或其他任何要求,只需数据步骤本身。

data want;
  set sashelp.class;
  if 0 then set mean_height_Age mean_weight_sex;
  if _n_=1 then do;
    declare hash h_age(dataset:'mean_height_age');
    h_age.defineKey('age');
    h_age.defineData('height_mean');
    h_age.defineDone();

    declare hash h_sex(dataset:'mean_weight_sex');
    h_sex.defineKey('sex');
    h_sex.defineData('weight_mean');
    h_sex.defineDone();

  end;
  rc_age = h_age.find();
  rc_sex = h_sex.find();
run;
Run Code Online (Sandbox Code Playgroud)