小编w56*_*698的帖子

如何处理合并两个数据集的问题？

我正在使用R:svolik和中的两个数据集est。就背景而言，我开发了一种新的概念衡量标准（立法权力共享），并用它来复制之前的一项研究：Svolik (2012)。练习的目的是看看使用我的测量结果是否不同。

这是svolik数据：https://drive.google.com/file/d/1nCBhRXNcBrLEr6-R2pkyuQ9mCtJKkdmm/view ?usp=sharing

这是est数据：https://drive.google.com/file/d/1D-UmHSi9LIEsmY5VBvU8nxu8u1gix7Ay/view ?usp=sharing

我从 Svolik 用于生成结果的数据集开始。我成功地重现了他的结果（图中的模型1、3、5）。然后，我将他的数据集与包含我的新度量的数据集合并，丢弃任何不完全匹配的观察结果：

# load original data (the data used to produce original results)
svolik <- read_dta("svolik.dta")

# load data containing my new measure
est <- read.csv("Merging with Svolik.csv")

# merge
final <- merge(svolik, est, by = c("ccode", "year"), all = FALSE)

Run Code Online (Sandbox Code Playgroud)

接下来，我再次运行他的模型，但将他的立法机构变量替换为我的立法权力共享变量（图中的模型 2、4 和 6）。请注意，尽管数据涵盖同一时间段，但原始模型和我自己的模型包含的观测值数量略有不同（2,903 个而不是 2,934 个）。

我一生都无法弄清楚为什么我会得到这些额外的观察结果。我的猜测是它与合并/重复或类似的事情有关。您觉得这可能是个问题吗？如果是这样，您知道有什么方法可以找出这些观察结果吗？解决方案可能很简单，我可能只是想太多了。任何意见，将不胜感激！请注意，我尝试使用不同的合并策略 --- left_joinin dplyr()--- 但这不起作用。

请注意，我正在 Stata 中运行结果。以下是原始结果（即模型 1、3 和 5）的 …

merge r

w56*_*698

2023 07-26

4
推荐指数

1
解决办法

195
查看次数

标签统计

merge ×1

r ×1

如何处理合并两个数据集的问题？

标签 统计

小编w56_698的帖子

标签统计