Gor*_* L. 3 naming r vector special-characters dataframe
我有vector一堆Company Name来自单独的观察结果data frame。我使用vector来查看 中所有唯一公司名称的列表data frame,然后对其进行清理(更正拼写错误、更改/删除合并中的名称等)。由于data不允许丝般平滑的清理过程的性质,重命名是逐行完成的(即硬编码)。我遇到了一个奇怪的问题,我不知道如何解决。
vector有一些公司的名称涉及某些特殊字符,例如\'\xc3\xb1\'、\'\xc3\xbc\'、\'\xc3\xa9\'等。从窗口看去,View那些观察结果旁边也有一个相同的条目,只是用一个奇怪的问号块代替了这些字母。例如:
Company_Name\n\nSES (Soci\xc3\xa9t\xc3\xa9 Europ\xc3\xa9enne des Satellites (SES))\nSES (Soci\xef\xbf\xbdt\xef\xbf\xbd Europ\xef\xbf\xbdenne des Satellites (SES))\nRun Code Online (Sandbox Code Playgroud)\n\n最初,我用这样的一行代码修复了拼写错误:
\n\ndataframe$Company_Name[which(dataframe$Company_Name == "SES (Soci\xc3\xa9t\xc3\xa9 Europ\xc3\xa9enne des Satellites (SES))" | dataframe$Company_Name == "SES (Soci\\xe9t\\xe9 Europ\\xe9enne des Satellites (SES))"] <- "SES S.A."\nRun Code Online (Sandbox Code Playgroud)\n\n您在带有重音符号“e”的名称后面看到的替代名称是带有问号块的名称。我通过调用问题阻止名称出现的向量的特定行(即vector[32]),并将输出物理复制并粘贴到代码中来获得该替代名称。
理想情况下,vector清理完成后最终看起来像这样:
Company_Name\n\nSES S.A.\nRun Code Online (Sandbox Code Playgroud)\n\n但是,它不会删除问号块,而是保留它们:
\n\nCompany_Name\n\nSES S.A.\nSES (Soci\xef\xbf\xbdt\xef\xbf\xbd Europ\xef\xbf\xbdenne des Satellites (SES))\nRun Code Online (Sandbox Code Playgroud)\n\n还有其他人遇到过类似的问题吗?我检查过问题是否出在拼写上,但这似乎不是问题所在。任何帮助是极大的赞赏。
\n\n(注意:我对特定套餐没有偏好 - 所有选项都在桌面上!)
\n这可能是一个编码问题。
查看带问号的行的编码:
Encoding(Company_Name)
Run Code Online (Sandbox Code Playgroud)
对于法语句子,您应该按如下方式设置编码:
Encoding(Company_Name)<-'latin1'
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1448 次 |
| 最近记录: |