问题 :
我想在以下之间进行空间连接:
这是我到目前为止所拥有的,我发现它很慢(很多调度程序延迟,可能是因为公社没有广播):
@pandas_udf(schema_out, PandasUDFType.GROUPED_MAP)
def join_communes(traces):
geometry = gpd.points_from_xy(traces['longitude'], traces['latitude'])
gdf_traces = gpd.GeoDataFrame(traces, geometry=geometry, crs = communes.crs)
joined_df = gpd.sjoin(gdf_traces, communes, how='left', op='within')
return joined_df[columns]
Run Code Online (Sandbox Code Playgroud)
pandas_udf 将一些点数据帧(轨迹)作为熊猫数据帧,将其转换为带有 geopandas 的 GeoDataFrame,并操作与多边形GeoDataFrame的空间连接(因此受益于 Geopandas 的 Rtree 连接)
问题:
有没有办法让它更快?我知道我的公社地理数据框位于 Spark Driver 的内存中,并且每个工作人员都必须在每次调用 udf 时下载它,这是正确的吗?
但是我不知道如何让这个 GeoDataFrame 直接对工作人员可用(如在广播连接中)
有任何想法吗 ?