我正在努力让R读取一个csv文件,其中一些列标准英文字符,一些数字和一些日文字符字段.这是数据的样子:
category,desc,otherdesc,volume
UPC - 31401 Age Itameabura,???????????,OIL_OTHERS_SML_ECO,83.0
UPC - 31401 Age Itameabura,???????,OIL_OTHERS_MED,137.0
UPC - 31401 Age Itameabura,????????,OIL_CANOLA_OTHERS_LRG,3026.0
Run Code Online (Sandbox Code Playgroud)
将R的语言设置为英语,将日语字符转换为一些乱码.当我将R中的语言设置更改为日语时Sys.setlocale("LC_CTYPE", "japanese"),我看到文件根本没有被读入.R给出错误说:
make.names出错(col.names,unique = TRUE):'サ类'中的多字节字符串无效
我不知道我的csv文件或标题名称有什么问题.您能否指导我如何将此csv文件读入R中,以便所有内容都像在csv文件中一样显示?
谢谢!Vish
我是Spark的新手.我在多个地方读过在RDD上使用cache()会导致它存储在内存中但是到目前为止我还没有找到关于"如何确定数据的最大大小"的明确指南或经验法则塞进记忆?如果我调用"缓存"的数据量超过内存,会发生什么?它会导致我的工作失败还是仍然会对集群性能产生明显影响?
谢谢!