平行大熊猫适用

Question

平行大熊猫适用

Geo*_*ler 5 python parallel-processing apply embarrassingly-parallel pandas

熊猫的新手，我已经想要并行执行逐行应用操作。到目前为止，我发现Parallelize在pandas groupby之后适用。但是，这似乎仅适用于分组的数据帧。

我的用例是不同的：我有一个假期列表，并且对于我当前的行/日期，想要找到从这一天之前到第二天到下一个假期的无休日。

这是我通过apply调用的函数：

def get_nearest_holiday(x, pivot):
    nearestHoliday = min(x, key=lambda x: abs(x- pivot))
    difference = abs(nearesHoliday - pivot)
    return difference / np.timedelta64(1, 'D')

Run Code Online (Sandbox Code Playgroud)

我如何加快速度？

编辑

我对pythons池做了一些实验-但这既不是很好的代码，也没有得到我的计算结果。

Answer 1

Geo*_*ler 6

对于并行方法，这是基于 pandas groupby 之后的 Parallelize apply 的答案：

from joblib import Parallel, delayed
import multiprocessing

def get_nearest_dateParallel(df):
    df['daysBeforeHoliday'] = df.myDates.apply(lambda x: get_nearest_date(holidays.day[holidays.day < x], x))
    df['daysAfterHoliday']  =  df.myDates.apply(lambda x: get_nearest_date(holidays.day[holidays.day > x], x))
    return df

def applyParallel(dfGrouped, func):
    retLst = Parallel(n_jobs=multiprocessing.cpu_count())(delayed(func)(group) for name, group in dfGrouped)
    return pd.concat(retLst)

print ('parallel version: ')
# 4 min 30 seconds
%time result = applyParallel(datesFrame.groupby(datesFrame.index), get_nearest_dateParallel)

Run Code Online (Sandbox Code Playgroud)

但我更喜欢@NinjaPuppy 的方法，因为它不需要 O(n * number_of_holidays)

Answer 2

小智 6

我认为pandarallel包现在可以更轻松地做到这一点。没有仔细研究过，但应该可以解决问题。

Answer 3

Jon*_*nts 4

我认为并行尝试东西的路线可能会让事情变得过于复杂。我还没有在大样本上尝试过这种方法，所以你的里程可能会有所不同，但它应该给你一个想法......

让我们从一些日期开始......

import pandas as pd

dates = pd.to_datetime(['2016-01-03', '2016-09-09', '2016-12-12', '2016-03-03'])

Run Code Online (Sandbox Code Playgroud)

我们将使用一些假期数据pandas.tseries.holiday- 请注意，实际上我们想要DatetimeIndex......

from pandas.tseries.holiday import USFederalHolidayCalendar

holiday_calendar = USFederalHolidayCalendar()
holidays = holiday_calendar.holidays('2016-01-01')

Run Code Online (Sandbox Code Playgroud)

这给了我们：

DatetimeIndex(['2016-01-01', '2016-01-18', '2016-02-15', '2016-05-30',
               '2016-07-04', '2016-09-05', '2016-10-10', '2016-11-11',
               '2016-11-24', '2016-12-26',
               ...
               '2030-01-01', '2030-01-21', '2030-02-18', '2030-05-27',
               '2030-07-04', '2030-09-02', '2030-10-14', '2030-11-11',
               '2030-11-28', '2030-12-25'],
              dtype='datetime64[ns]', length=150, freq=None)

Run Code Online (Sandbox Code Playgroud)

现在我们使用以下方法找到原始日期的最近假期的索引searchsorted：

indices = holidays.searchsorted(dates)
# array([1, 6, 9, 3])
next_nearest = holidays[indices]
# DatetimeIndex(['2016-01-18', '2016-10-10', '2016-12-26', '2016-05-30'], dtype='datetime64[ns]', freq=None)

Run Code Online (Sandbox Code Playgroud)

然后求两者的区别：

next_nearest_diff = pd.to_timedelta(next_nearest.values - dates.values).days
# array([15, 31, 14, 88])

Run Code Online (Sandbox Code Playgroud)

您需要小心指数，这样您就不会环绕，并且对于前一个日期，请使用进行计算，indices - 1但它应该作为（我希望）相对较好的基础。

归档时间：	9 年，4 月前
查看次数：	4153 次
最近记录：	9 年，4 月前