我一直在从网站上抓取评论数据,在此过程中,我能够获取包含用户名、评论数量、评论日期和国家/地区信息的字符串向量。它们看起来大致是这样的
raw <- c("Anna (1025) - North Carolina, USA - DEC 20, 2017",
"James (10) - - MEXICO - NOV 22, 2017",
"Susane (222) - Oulu, FINLAND - JUNE 1, 2016",
"Alex (20000) - SOUTH KOREA- MAR 11, 2015")
Run Code Online (Sandbox Code Playgroud)
到目前为止,我可以提取名称、评论编号和日期,因为它们位于定义的位置或具有一致的格式。问题在于,国家/地区名称格式的位置不一致,并且每个字符串中的各个数据点没有一致地用逗号或破折号分隔。仅提取大写字符串就会遇到缺少国家或名称中有两个部分的国家的问题。
地图包包含国家/地区列表。有没有一种方法可以用来str_extract_all在stringr国家/地区列表向量中查找匹配项并提取该匹配项?