使用 Pandas 建立索引的最佳实践

Question

我想根据掩码选择行，idx. 我可以想到两种不同的可能性，使用iloc或仅使用括号。我在下面展示了两种可能性（在数据框上df）。他们都同样可行吗？

idx = (df["timestamp"] >= 5) & (df["timestamp"] <= 10)
idx = idx.values
hr = df["hr"].iloc[idx]
timestamps = df["timestamp"].iloc[idx]

或以下之一：

idx = (df["timestamp"] >= 5) & (df["timestamp"] <= 10)
hr = df["hr"][idx]
timestamps = df["timestamp"][idx]

Answer 1

不，它们不一样。一种使用直接语法，而另一种依赖于链式索引。

关键点是：

下面是两个可行的例子。在任一示例中，您都可以使用类似的语法来屏蔽数据框或系列。例如，df['hr'].loc[mask]将与df.loc[mask].

这里我们numpy.where用来提取True布尔系列中元素的整数索引。iloc确实接受布尔数组，但在我看来，这不太清楚；“i”代表整数。

idx = (df['timestamp'] >= 5) & (df['timestamp'] <= 10)
mask = np.where(idx)[0]
df = df.iloc[mask]

loc当我们已经按特定系列查询时，使用更自然。

mask = (df['timestamp'] >= 5) & (df['timestamp'] <= 10)
df = df.loc[mask]

索引和选择数据是基础pandas：阅读官方文档是无可替代的。