小编Era*_*kon的帖子

map和flatMap有什么区别,每个用例都是一个很好的用例?

有人可以向我解释一下map和flatMap之间的区别以及每个的好用例是什么?

什么"压扁结果"是什么意思?到底有什么好处呢?

apache-spark

237
推荐指数
10
解决办法
15万
查看次数

如何避免在保存DataFrame时生成crc文件和SUCCESS文件?

我使用以下代码将spark DataFrame保存到JSON文件

unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json")
Run Code Online (Sandbox Code Playgroud)

输出结果是:

part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
_SUCCESS
._SUCCESS.crc
Run Code Online (Sandbox Code Playgroud)
  1. 如何生成单个JSON文件而不是每行文件?
  2. 如何避免*crc文件?
  3. 如何避免SUCCESS文件?

json apache-spark spark-dataframe

20
推荐指数
3
解决办法
1万
查看次数

如何使用spark sc.textFile获取文件名?

我正在使用以下代码读取文件目录:

val data = sc.textFile("/mySource/dir1/*")
Run Code Online (Sandbox Code Playgroud)

现在我的 datardd包含目录中所有文件的所有行(对吧?)

我现在想要为每行添加一个包含源文件名的列,我该怎么做?

我尝试的其他选项是使用wholeTextFile但我不断出现内存异常.5台服务器24核24 GB(执行器 - 核心5执行器 - 内存5G)任何想法?

scala apache-spark

6
推荐指数
1
解决办法
3678
查看次数

logstash grok - 如何进行条件模式匹配?

我在同一个日志文件中有这三个日志行:

INFO [2015-08-27 18:46:14,279] ({qtp243745864-44} NotebookServer.java[onMessage]:101) - RECEIVE << RUN_PARAGRAPH
INFO [2015-08-27 18:46:14,322] ({qtp243745864-44} NotebookServer.java[broadcast]:253) - SEND >> NOTE
INFO [2015-08-27 18:46:16,809] ({pool-1-thread-2} RemoteInterpreter.java[init]:144) - Create remote interpreter org.apache.zeppelin.markdown.Markdown
Run Code Online (Sandbox Code Playgroud)

我想使用grok解析它们但未能获得正确的字段:1)如何解析括号内的数据?2)日志行的最后一部分是示例中的(CMD方向cmd_data)或(cmd信息):

cmd=Receive or SEND
cmd_direction=<< or >>
cmd_data=RUN_PARAGRAPH or NOTE
Run Code Online (Sandbox Code Playgroud)

但最后一行是CMD信息,它不符合相同的格式.

我试图找到匹配第一和第二但不是第三的正确规则.最终结果应该是or(cmd + cmd_data)还是(cmd_info)字段有什么帮助吗?

regex logstash logstash-grok

3
推荐指数
1
解决办法
1万
查看次数

如何在Scala中初始化变量?

我有这个示例代码:

val someCondition = true
case class SampleClass (source: String)

val sample: SampleClass

if (someCondition)
  sample = new SampleClass("Some String")
else
  sample = new SampleClass("Other String")
Run Code Online (Sandbox Code Playgroud)

我想定义一个val参数并根据某些条件对其进行初始化.但我无法弄清楚如何做到这一点.另外,如果我改变它,var我仍然不能.

functional-programming scala

0
推荐指数
1
解决办法
67
查看次数