如何指定 Pandas 数据框的行数？

Question

如何指定 Pandas 数据框的行数？

ps.*_*rge 5 python data-analysis real-time-data dataframe pandas

我有一个 Pandas 数据框，我每秒不断地附加一行数据，如下所示。

df.loc[time.strftime("%Y-%m-%d %H:%M:%S")] = [reading1, reading2, reading3]
>>>df
                     sensor1 sensor2 sensor3
2015-04-14 08:50:23    5.4     5.6     5.7
2015-04-14 08:50:24    5.5     5.6     5.8
2015-04-14 08:50:26    5.2     5.3     5.4

Run Code Online (Sandbox Code Playgroud)

如果我继续这样做，最终我将开始遇到内存问题（每次它都会调用整个 DataFrame）。

我只需要保留 X 行数据。即手术后，它将是：

>>>df
                     sensor1 sensor2 sensor3
(this row is gone)
2015-04-14 08:50:24    5.5     5.6     5.8
2015-04-14 08:50:26    5.2     5.3     5.4
2015-04-14 08:50:27    5.2     5.4     5.6

Run Code Online (Sandbox Code Playgroud)

有没有一种方法可以指定最大行数，以便在添加任何后续行时，同时删除最旧的行，而无需“检查数据帧的长度，如果数据帧的长度 > X，则删除第一行，追加新行”？

像这样，但对于 Pandas DataFrame：https ://stackoverflow.com/a/10155753/4783578

Answer 1

Ale*_*der 1

此示例初始化一个等于最大大小的 DataFrame 并用 None 填充它。然后它迭代新行列表，首先移动原始 DataFrame，然后将新行附加到末尾。您没有指定要如何处理索引，所以我忽略了它。

max_rows = 5
cols = list('AB')

# Initialize empty DataFrame
df = pd.DataFrame({c: np.repeat([None], [max_rows]) for c in cols})

new_rows = [pd.DataFrame({'A': [1], 'B': [10]}), 
            pd.DataFrame({'A': [2], 'B': [11]}),
            pd.DataFrame({'A': [3], 'B': [12]}),
            pd.DataFrame({'A': [4], 'B': [13]}),
            pd.DataFrame({'A': [5], 'B': [14]}),
            pd.DataFrame({'A': [6], 'B': [15]}),
            pd.DataFrame({'A': [7], 'B': [16]})]

for row in new_rows:
    df = df.shift(-1)
    df.iloc[-1, :] = row.values

>>> df
df
   A   B
0  3  12
1  4  13
2  5  14
3  6  15
4  7  16

Run Code Online (Sandbox Code Playgroud)

让我们以 AAPL 一年的股价为例。

from datetime import timedelta

aapl = DataReader("AAPL", data_source="yahoo", start="2014-1-1", end="2015-1-1")
cols = aapl.columns
df = pd.DataFrame({c: np.repeat([None], [max_rows]) for c in aapl.columns})[cols]
# Initialize a datetime index
df.index = pd.DatetimeIndex(end=aapl.index[0] + timedelta(days=-1), periods=max_rows, freq='D')

for timestamp, row in aapl.iterrows():
    df = df.shift(-1)
    df.iloc[-1, :] = row.values
    idx = df.index[:-1].tolist()
    idx.append(timestamp)
    df.index = idx

>>> df
              Open    High     Low   Close       Volume Adj Close
2013-12-28  112.58  112.71  112.01  112.01  1.44796e+07    111.57
2013-12-29   112.1  114.52  112.01  113.99   3.3721e+07    113.54
2013-12-30  113.79  114.77   113.7  113.91  2.75989e+07    113.46
2013-12-31  113.64  113.92  112.11  112.52  2.98815e+07    112.08
2014-12-31  112.82  113.13  110.21  110.38  4.14034e+07    109.95

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，8 月前
查看次数：	17378 次
最近记录：	8 年，2 月前