相关疑难解决方法(0)

Spark:使用与新行不同的分隔符读取文件

我正在使用Apache Spark 1.0.1.我有许多文件用UTF8分隔,\u0001而不是通常的新行\n.如何在Spark中读取此类文件？意思是,默认分隔符sc.textfile("hdfs:///myproject/*")是\n,我想将其更改为\u0001.

apache-spark

dot*_*tan

2014 08-12

14
推荐指数

3
解决办法

2万
查看次数

如果Spark支持内存溢出到磁盘，那么Spark Out of Memory怎么会发生呢？

我读了一些关于Spark内存管理的文档。

\n\n

在此页面上：如果我没有足够的内存，spark 会做什么？。它说：

\n\n

\n
Spark将分区存储在内存中的LRU缓存中。当缓存达到其大小限制时，它会从中逐出条目（即分区）。当分区具有 \xe2\x80\x9cdisk\xe2\x80\x9d 属性（即您的持久性级别允许在磁盘上存储分区）时，它将被写入 HDD 并且它消耗的内存将被释放，除非您请求它。当您请求它时，它将被读入内存，如果没有足够的内存，则缓存中的其他较旧条目将被逐出。如果您的分区没有 \xe2\x80\x9cdisk\xe2\x80\x9d 属性，则逐出仅意味着销毁缓存条目而不将其写入 HDD。
\n

\n\n

那么如果内存不够的话分区会溢出到磁盘，那么Spark运行时怎么会出现内存不足的问题呢？

apache-spark

Jas*_*eng

2019 04-10

6
推荐指数

1
解决办法

3062
查看次数