组合 Geopandas 数据框中的行

con*_*ead 5 python dataframe pandas geopandas

TLDR:我正在尝试将 GeoPandas Dataframe 的行组合成一行,其中它们的形状组合成一行。

\n

我目前正在开展一个小项目,该项目要求我使用一些不同的指标创建加拿大卫生区域的交互式等值线图。

\n

当我注意到行数不相同时,我合并了两个 Dataframe,一个包含每个健康区域每年的人口估计值,另一个包含健康区域的几何图形的 GeoDataframe。

\n

经过进一步检查,我意识到我一直使用的两个数据集并不包含完全相同的健康区域。我得到的形状文件比人口数据有更多的健康区域,出于方法上的原因,人口数据合并了其中的一些区域。

\n

注意到差异后,我重新进行合并以显示差异,以便我可以找出需要汇总的内容。

\n
merged_gdf = gdf.merge(df, on=\'HR_UID\') \n#HR_UID is just the name of the column with the codes for the health regions, since they   \n#have slightly different names in different datasets, it\'s easier to merge on code.\nprint(list(set(df[\'HEALTH_REGION\'])-set(merged_gdf[\'HEALTH_REGION_y\'])),list(set(gdf[\'HR_UID\'])-set(df[\'HR_UID\'].unique())))\n
Run Code Online (Sandbox Code Playgroud)\n

在这里,我看到缺失的卫生区域是 [\'Mamawetan/Keewatin/Athabasca, Saskatchewan\']。GeoDataframe 将这三个区域分开,代码为 4711、4712、4713,而人口数据将它们汇总到一个区域,代码为 4714。

\n

我打算组合 GeoDataframe 中与人口数据中组合的健康区域相对应的行,以组合它们的多边形。\n我返回 GeoDataframe 尝试组合与这些区域相对应的三行:

\n
old_hr=gdf[gdf[\'HR_UID\'].isin({\'4711\',\'4712\',\'4713\'})]\n
Run Code Online (Sandbox Code Playgroud)\n
old_hr=gdf[gdf[\'HR_UID\'].isin({\'4711\',\'4712\',\'4713\'})]\n
Run Code Online (Sandbox Code Playgroud)\n

现在我意识到我不太确定如何在 GeoDataframe 中组合多边形。我尝试过使用dissolve(on=\'HEALTH_REGION\'),尽管那不起作用。我花了一段时间在网上四处寻找,但到目前为止,我似乎找不到任何人问这个特定的问题 - 也许我错过了一些东西..

\n

con*_*ead 3

事实证明,它实际上比我想象的要简单,我只是对数据框中的一些附加列感到困惑,这些列实际上对于映射来说并不是必需的。我对 Geopandas 和一般地图绘制很陌生,所以我没有意识到SHAPE_AREA并且SHAPE_LEN实际上并不需要。

这是我用来导入没有额外列的数据框,然后组合 3 个多边形的代码:

# if this is not "pythonic" let me know, I'm still a python rookie, but this  
# worked for me. 

gdf = gpd.read_file('data/HR_Boundary_Files/HR_000b18a_e.shp', encoding='utf-8').drop(columns={'FRENAME', 'SHAPE_AREA','SHAPE_LEN'})
gdf.rename(columns={'ENGNAME':'HEALTH_REGION'}, inplace=True)
old_hr=gdf[gdf['HR_UID'].isin({'4711','4712','4713'})]
gdf=gdf[~gdf['HR_UID'].isin({'4711','4712','4713'})]
new_region_geometry = old_hr['geometry'].unary_union
gdf=gdf.append(pd.Series(['4714', 'Mamawetan/Keewatin/Athabasca Health Region', new_region_geometry], 
                         index=gdf.columns), ignore_index=True)
Run Code Online (Sandbox Code Playgroud)

GeoSeries 的属性unary_union返回所有几何图形的并集,这给了我所需的新形状。我刚刚将其添加到具有正确区域名称和代码的数据框中,并删除了构成新区域的旧区域。