我正在寻找清理 61k 行的数据集。我需要清理它的街道地址栏。目前,这些地址是一场噩梦。有时会写出完整地址(即 111 Frederick Douglass Blvd),有时会以简写形式写出相同地址(即 111 8th Ave/111 8th Avenue)。
我是 pandas/python 的新用户,所以我不知道如何解决如此巨大的清洁需求。在我使用 .replace() 之前,但这似乎是完全错误的方法。将不胜感激您的任何见解。
编辑:本质上我正在寻求标准化地址。地址输入不正确或采用多种不同的格式。长期目标是映射所有这些地址,但以数据目前的形式这是不可能的
数据集:https://data.cityofnewyork.us/City-Government/Evictions/6z8x-wfk4