Pandas：基于局部最小值-最大值的数据锯齿形分割

Question

Pandas：基于局部最小值-最大值的数据锯齿形分割

Tha*_*yen 10 python time-series pandas technical-indicator

我有一个时间序列数据。生成数据

date_rng = pd.date_range('2019-01-01', freq='s', periods=400)
df = pd.DataFrame(np.random.lognormal(.005, .5,size=(len(date_rng), 3)),
                  columns=['data1', 'data2', 'data3'],
                  index= date_rng)
s = df['data1']

Run Code Online (Sandbox Code Playgroud)

我想创建一条连接局部最大值和局部最小值的锯齿形线，它满足在 y 轴上|highest - lowest value|每条锯齿形线必须超过前一个距离的百分比（比如 20%）的条件之字形线，以及预先设定的值 k（比如 1.2）

我可以使用以下代码找到局部极值：

# Find peaks(max).
peak_indexes = signal.argrelextrema(s.values, np.greater)
peak_indexes = peak_indexes[0]

# Find valleys(min).
valley_indexes = signal.argrelextrema(s.values, np.less)
valley_indexes = valley_indexes[0]
# Merge peaks and valleys data points using pandas.
df_peaks = pd.DataFrame({'date': s.index[peak_indexes], 'zigzag_y': s[peak_indexes]})
df_valleys = pd.DataFrame({'date': s.index[valley_indexes], 'zigzag_y': s[valley_indexes]})
df_peaks_valleys = pd.concat([df_peaks, df_valleys], axis=0, ignore_index=True, sort=True)

# Sort peak and valley datapoints by date.
df_peaks_valleys = df_peaks_valleys.sort_values(by=['date'])

Run Code Online (Sandbox Code Playgroud)

但我不知道如何将阈值条件应用于它。请告诉我如何应用这样的条件。

由于数据可能包含数百万个时间戳，因此强烈建议进行高效计算

更清晰的描述：

示例输出，来自我的数据：

 # Instantiate axes.
(fig, ax) = plt.subplots()
# Plot zigzag trendline.
ax.plot(df_peaks_valleys['date'].values, df_peaks_valleys['zigzag_y'].values, 
                                                        color='red', label="Zigzag")

# Plot original line.
ax.plot(s.index, s, linestyle='dashed', color='black', label="Org. line", linewidth=1)

# Format time.
ax.xaxis_date()
ax.xaxis.set_major_formatter(mdates.DateFormatter("%Y-%m-%d"))

plt.gcf().autofmt_xdate()   # Beautify the x-labels
plt.autoscale(tight=True)

plt.legend(loc='best')
plt.grid(True, linestyle='dashed')

Run Code Online (Sandbox Code Playgroud)

我想要的输出（类似于这个，锯齿形只连接重要的部分）

Answer 1

Nik*_*ble 5

我已经回答了我对这个问题的最佳理解。然而变量 K 如何影响滤波器尚不清楚。

您想要根据运行条件过滤极值。我假设您想要标记与最后标记的极值的相对距离大于 p% 的所有极值。我进一步假设您始终认为时间序列的第一个元素是有效/相关点。

我通过以下过滤功能实现了这一点：

def filter(values, percentage):
    previous = values[0] 
    mask = [True]
    for value in values[1:]: 
        relative_difference = np.abs(value - previous)/previous
        if relative_difference > percentage:
            previous = value
            mask.append(True)
        else:
            mask.append(False)
    return mask

Run Code Online (Sandbox Code Playgroud)

要运行您的代码，我首先导入依赖项：

from scipy import signal
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.dates as mdates

Run Code Online (Sandbox Code Playgroud)

为了使代码可重现，我修复了随机种子：

np.random.seed(0)

Run Code Online (Sandbox Code Playgroud)

这里剩下的就是copypasta。请注意，我减少了样本量以使结果更清晰。

date_rng = pd.date_range('2019-01-01', freq='s', periods=30)
df = pd.DataFrame(np.random.lognormal(.005, .5,size=(len(date_rng), 3)),
                  columns=['data1', 'data2', 'data3'],
                  index= date_rng)
s = df['data1']
# Find peaks(max).
peak_indexes = signal.argrelextrema(s.values, np.greater)
peak_indexes = peak_indexes[0]
# Find valleys(min).
valley_indexes = signal.argrelextrema(s.values, np.less)
valley_indexes = valley_indexes[0]
# Merge peaks and valleys data points using pandas.
df_peaks = pd.DataFrame({'date': s.index[peak_indexes], 'zigzag_y': s[peak_indexes]})
df_valleys = pd.DataFrame({'date': s.index[valley_indexes], 'zigzag_y': s[valley_indexes]})
df_peaks_valleys = pd.concat([df_peaks, df_valleys], axis=0, ignore_index=True, sort=True)
# Sort peak and valley datapoints by date.
df_peaks_valleys = df_peaks_valleys.sort_values(by=['date'])

Run Code Online (Sandbox Code Playgroud)

然后我们使用过滤函数：

p = 0.2 # 20% 
filter_mask = filter(df_peaks_valleys.zigzag_y, p)
filtered = df_peaks_valleys[filter_mask]

Run Code Online (Sandbox Code Playgroud)

并按照您之前的绘图以及新过滤的极值进行绘图：

 # Instantiate axes.
(fig, ax) = plt.subplots(figsize=(10,10))
# Plot zigzag trendline.
ax.plot(df_peaks_valleys['date'].values, df_peaks_valleys['zigzag_y'].values, 
                                                        color='red', label="Extrema")
# Plot zigzag trendline.
ax.plot(filtered['date'].values, filtered['zigzag_y'].values, 
                                                        color='blue', label="ZigZag")

# Plot original line.
ax.plot(s.index, s, linestyle='dashed', color='black', label="Org. line", linewidth=1)

# Format time.
ax.xaxis_date()
ax.xaxis.set_major_formatter(mdates.DateFormatter("%Y-%m-%d"))

plt.gcf().autofmt_xdate()   # Beautify the x-labels
plt.autoscale(tight=True)

plt.legend(loc='best')
plt.grid(True, linestyle='dashed')

Run Code Online (Sandbox Code Playgroud)

编辑：

如果想要将第一个点和最后一个点都视为有效，那么您可以按如下方式调整过滤器函数：

def filter(values, percentage):
    # the first value is always valid
    previous = values[0] 
    mask = [True]
    # evaluate all points from the second to (n-1)th
    for value in values[1:-1]: 
        relative_difference = np.abs(value - previous)/previous
        if relative_difference > percentage:
            previous = value
            mask.append(True)
        else:
            mask.append(False)
    # the last value is always valid
    mask.append(True)
    return mask

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，2 月前
查看次数：	2377 次
最近记录：	6 年，1 月前