我正在尝试导入日语的csv.这段代码:
url <- 'http://www.mof.go.jp/international_policy/reference/itn_transactions_in_securities/week.csv'
x <- read.csv(url, header=FALSE, stringsAsFactors=FALSE)
Run Code Online (Sandbox Code Playgroud)
返回以下错误:
Error in type.convert(data[[i]], as.is = as.is[i], dec = dec, na.strings = character(0L)) :
invalid multibyte string at '<91>?O<8b>y<82>??<e0><8f>?<94><94><84><94><83><8c>_<96>?@(<8f>T<8e><9f><81>E<8e>w<92><e8><95>@<8a>?x<81>[<83>X<81>j'
Run Code Online (Sandbox Code Playgroud)
我试图改变的编码(Encoding(url) <- 'UTF-8'和也为latin1),并试图除去read.csv参数,但在每种情况下接收相同的"无效多字节字符串"消息.是否有应使用不同的编码,或者是有一些其他的问题吗?
这是我尝试tolower()从无法更改的文件(至少不是手动 - 太大)运行字符向量时收到的错误.
Error in tolower(m) : invalid multibyte string X
似乎是法国公司名称是É角色的问题.虽然我没有调查所有这些(也不可能手动这样做).
这很奇怪,因为我的想法是编码问题会在过程中被识别出来read.csv(),而不是在事后的操作过程中被识别出来.
有没有快速删除这些多字节字符串的方法?或者,也许是一种识别和转换的方法?或者甚至完全忽略它们?