小编use*_*779的帖子

将包含日文字符的csv文件读入R中

我正在努力让R读取一个csv文件,其中一些列标准英文字符,一些数字和一些日文字符字段.这是数据的样子:

category,desc,otherdesc,volume
UPC - 31401 Age Itameabura,???????????,OIL_OTHERS_SML_ECO,83.0
UPC - 31401 Age Itameabura,???????,OIL_OTHERS_MED,137.0
UPC - 31401 Age Itameabura,????????,OIL_CANOLA_OTHERS_LRG,3026.0 
Run Code Online (Sandbox Code Playgroud)

将R的语言设置为英语,将日语字符转换为一些乱码.当我将R中的语言设置更改为日语时Sys.setlocale("LC_CTYPE", "japanese"),我看到文件根本没有被读入.R给出错误说:

make.names出错(col.names,unique = TRUE):'サ类'中的多字节字符串无效

我不知道我的csv文件或标题名称有什么问题.您能否指导我如何将此csv文件读入R中,以便所有内容都像在csv文件中一样显示?

谢谢!Vish

csv locale r multibyte

7
推荐指数
1
解决办法
2949
查看次数

如果数据无法在Spark中使用cache()进入内存,会发生什么?

我是Spark的新手.我在多个地方读过在RDD上使用cache()会导致它存储在内存中但是到目前为止我还没有找到关于"如何确定数据的最大大小"的明确指南或经验法则塞进记忆?如果我调用"缓存"的数据量超过内存,会发生什么?它会导致我的工作失败还是仍然会对集群性能产生明显影响?

谢谢!

distributed-computing cluster-computing apache-spark

2
推荐指数
1
解决办法
928
查看次数