Bry*_*Kim 1 dataset data-management stata categorical-data
我正在Stata中合并两个数据集,并提出了一个潜在的问题.
我计划sort
以完全相同的方式在每个数据集上对两组数据共有的几个分类变量进行计划.但是,有几个分类变量在一个数据集中存在更多类别而在另一个数据集中存在.我已经足够小心,以确保两个数据集中的编码匹配(例如,红色在数据集A和B中编码为1,但数据集A仅有红色,绿色和蓝色,而数据集B有红色,绿色,蓝色和黄色).
如果我sort
每个数据集以同样的方式和generate
一个id
变量(gen id = _n
),并merge
在这一点,我会遇到什么问题?
这里没有统计问题,因为这纯粹是关于Stata中的数据管理,所以我也会很快投票将其迁移到Stack Overflow,我会成为那些可能尝试回答它的人之一,所以我会这样做那个.
无论您的问题中的任何其他细节如何,您描述的生成标识符的方法都不是如何考虑合并数据集.
想象一下,任何两个数据集,然后在每个数据集中,generate
根据您的建议,基于观察数字的标识符.生成这样的类似标识符不会创建真正的merge
密钥.你不妨在一个数据集中将四个值"Alan""Bill""Christopher""David"与另一个数据集中的"William""Xavier""Yulia""Zach"合并,因为两者都可以标记为观察数字1至4.
我的建议有三个:
尝试使用您的数据提出建议,并尝试了解结果.
考虑一下你是否还有别的东西,即append
问题.混淆两者是很常见的.
如果这两个都失败了,那么回过头来看一个真正的问题和真实的代码以及一些小样本的真实结果,而不是抽象的担忧.