我正在过滤来自澳大利亚 ABS 的血统。我正在获取如下祖先数据。
allvic_url='ABS_CENSUS2011_T09/TOT+1+2+3+4+Z.TOT+TOTP+1101+1102+6101+3204+2303+2101+5201+2305+2306+3205+3304+7106+2201+3103+6902+4106+3206+3104+1201+1202+3307+3308+2102+3213+7115+9215+3106+4907+5107+2103+OTH+Z.2.SA2..A/all?detail=Full&dimensionAtObservation=AllDimensions'
Run Code Online (Sandbox Code Playgroud)
然后,我在使用较新的 2016 数据集显示祖先随时间变化的问题时遇到了问题,因为 api 非常混乱......这里是http://stat.data.abs.gov.au/#。(我想尝试展示郊区的人口统计数据是如何变化的)。
我的目标输出是郊区级别的数据框,显示血统随时间的变化。如果 api 可以给我更多的历史数据,那也太棒了。
Suburb Ancestry Main Ancestry Secondary Ancestry increased most Percentage increase 2016-2011
Run Code Online (Sandbox Code Playgroud)
(即,显示祖先平均值是中国人,adn 随时间变化了 x%)。
将不胜感激帮助解决此问题 - 谢谢!
我相信(至少部分)您要问的问题是如何使用正则表达式过滤 pandas 数据框。对于数据,我使用了您在数组中提供的一些场地值。对于您的用例,将按如下方式完成:
\nfrom pandas import DataFrame\n\ndf_with_venues = DataFrame(\n {\n "Venue Category": [\n "Speakeasy",\n "Boutique",\n "Peruvian Restaurant",\n "Bakery",\n "Vietnamese Restaurant",\n "Asian Restaurant",\n "Hotel",\n "Whisky Bar",\n "Street Art",\n "Italian Restaurant",\n "Bookstore",\n "French Restaurant",\n "Caf\xc3\xa9",\n "Sushi Restaurant",\n "Australian Restaurant",\n "Indian Restaurant",\n "Coffee Shop",\n "Bar",\n "Wine Bar",\n "Theater",\n "BBQ Joint",\n "Burger Joint",\n ]\n }\n)\n\nregex_filter_venues = df_with_venues[df_with_venues["Venue Category"].str.match(r".*Restaurant")]\nRun Code Online (Sandbox Code Playgroud)\n您在问题中指定您想要餐厅,因此我在此解决方案中提供了该餐厅,但您应该能够使用任何有效的正则表达式替换字符串“.*Restaurant”。如果有人需要的话,也可以作为参考,这里有 pandas regex 的文档,这里还有一个关于使用 pandas regex 的不同方式的很棒的教程
\n| 归档时间: |
|
| 查看次数: |
378 次 |
| 最近记录: |