使用R,我尝试在按年份和城市构建的数据集中匹配人名.由于一些拼写错误,无法进行精确匹配,因此我尝试使用agrep()来模糊匹配名称.
数据集的样本块结构如下:
df <- data.frame(matrix( c("1200013","1200013","1200013","1200013","1200013","1200013","1200013","1200013", "1996","1996","1996","1996","2000","2000","2004","2004","AGUSTINHO FORTUNATO FILHO","ANTONIO PEREIRA NETO","FERNANDO JOSE DA COSTA","PAULO CEZAR FERREIRA DE ARAUJO","PAULO CESAR FERREIRA DE ARAUJO","SEBASTIAO BOCALOM RODRIGUES","JOAO DE ALMEIDA","PAULO CESAR FERREIRA DE ARAUJO"), ncol=3,dimnames=list(seq(1:8),c("citycode","year","candidate")) ))
Run Code Online (Sandbox Code Playgroud)
整洁的版本:
citycode year candidate
1 1200013 1996 AGUSTINHO FORTUNATO FILHO
2 1200013 1996 ANTONIO PEREIRA NETO
3 1200013 1996 FERNANDO JOSE DA COSTA
4 1200013 1996 PAULO CEZAR FERREIRA DE ARAUJO
5 1200013 2000 PAULO CESAR FERREIRA DE ARAUJO
6 1200013 2000 SEBASTIAO BOCALOM RODRIGUES
7 1200013 2004 …Run Code Online (Sandbox Code Playgroud) 我有一个相当大(1000页)的结构化文本列表,我想将其转换为数据框(最好使用R,但我愿意接受建议).
文本文件如下所示:
AC-Acrelândia
TV Canal 18 AINDA NÃO OUTORGADO
RTV Canal 9 RADIO TV DO AMAZONAS LTDA
RTV Canal 10 RADIO TV DO AMAZONAS LTDA(REDENCAO)
TVD Canal 15 RADIO TV DO AMAZONAS LTDA
TVD Canal 15 AINDA NÃO OUTORGADO(REDENÇÃO)
FM 88,5 MHz RADIO E TV MAIRA LTDA
AC-Assis Brasil
TV Canal 34 AINDA NÃO OUTORGADO
RTV Canal 6 AMAZONIA CABO LTDA
RTV Canal 10 RADIO TV DO AMAZONAS LTDA
RTV Canal 13 AINDA NÃO OUTORGADO
RTV Canal 45 FUNDACAO JOAO …Run Code Online (Sandbox Code Playgroud)