小编Sha*_*shi的帖子

DataSet API和DataFrame API之间的区别

有没有人可以通过示例帮助我理解DataSet API和DataFrame API之间的区别？为什么需要在Spark中引入DataSet API？

apache-spark rdd apache-spark-sql apache-spark-dataset

Sha*_*shi

2018 09-24

49
推荐指数

0
解决办法

3万
查看次数

Nifi和Mini NiFi(MiNiFi)的区别

我只是想知道~~迷你NiFi~~ MiNiFi与NiFi有何不同？

我们还有其他功能吗？为什么需要引入它？

任何想法或链接都会有很大的帮助.

apache-nifi

Sha*_*shi

2016 11-26

27
推荐指数

2
解决办法

8438
查看次数

Apache Spark中的reduce（）与fold（）

reduce与fold技术实施之间的区别是什么？

我知道它们的签名不同，因为它们fold接受附加的参数（即初始值），该参数被添加到每个分区输出中。

有人可以告知这两个操作的用例吗？
考虑将0用作哪种方案，哪种方案会更好fold？

提前致谢。

reduce scala fold apache-spark rdd

Sha*_*shi

2016 12-24

6
推荐指数

1
解决办法

6094
查看次数

HDF和Apache NiFi之间的区别

我试图了解Apache Nifi和Hortonworks Data Flow(HDF)之间的区别.

它们在能力和整体设计方面有何不同？Nifi和HDF的用例有哪些？

hortonworks-data-platform apache-nifi

Sha*_*shi

lucky-day

6
推荐指数

1
解决办法

2881
查看次数

从 Sonar Lint 生成代码质量报告

我有一个用 Eclipse 编写的由 SonarLint 监控的 java 代码。我需要从声纳生成报告，有人知道该怎么做吗？

谢谢

eclipse sonarlint

Sha*_*shi

lucky-day

6
推荐指数

1
解决办法

2万
查看次数

将名称设置为RDD的优点

有可用于为RDD分配名称的API.

例如

val y = sc.parallelize(List(1,2,3))
y.setName("New Name")

Run Code Online (Sandbox Code Playgroud)

它的优点是什么？在Spark中可以使用此功能的任何特定原因？

提前致谢.

scala apache-spark

Sha*_*shi

2016 03-17

5
推荐指数

1
解决办法

2205
查看次数

更快速地开发和测试新的Nifi处理器

我正在为我的数据流开发新的Nifi处理器.我在eclipse中进行代码更改,创建新的.nar文件并将其复制到Nifi lib进行测试.

在永远的更新Nifi需要重新启动,这需要花费大量的时间.

有没有更好的方法在Nifi中测试你的新.nar？因为每次小的更改都会重新启动Nifi会降低开发速度.

apache-nifi

Sha*_*shi

lucky-day

5
推荐指数

2
解决办法

1305
查看次数

MapR-DB和Hbase之间的区别

我在MapR中有点新,但我知道hbase.我正在阅读其中一个视频,我发现Mapr-DB是MapR中的NoSQL DB,它与Hbase类似.除此之外,Hbase也可以在MapR上运行.我在MapR-Db和Hbase之间感到困惑.它们之间的确切区别是什么？

何时使用Mapr-DB以及何时使用Hbase？

基本上我有一个java代码在MapR上的Hbase中进行批量加载,现在这里如果我使用我用于Apache hadoop的相同代码,那么代码在这里工作吗？

请帮我避免这种混乱.

hadoop hbase mapr

Sha*_*shi

2015 05-15

4
推荐指数

2
解决办法

7603
查看次数

SaveMode 在 Spark SQL 中不起作用

我正在使用 SaveMode 选项运行 Spark SQL 示例，但出现以下错误。

val df = sqlContext.read.format("json").load("/user/root/spark/data/people.json")
df.select("name","age").write.format("json").save("Output",SaveMode.ErrorIfExist)


<console>:35: error: overloaded method value save with alternatives:
  ()Unit <and>
  (path: String)Unit
 cannot be applied to (String, org.apache.spark.sql.SaveMode)
              df.select("name", "age").write.format("json").save("Output",SaveMode.ErrorIfExists

Run Code Online (Sandbox Code Playgroud)

我检查了文档，它说 SaveMode 已被弃用。我该如何解决？

任何建议。

scala apache-spark apache-spark-sql

Sha*_*shi

lucky-day

2
推荐指数

1
解决办法

1万
查看次数

NiFi | FlowFile内存依赖性

我正在尝试了解NiFi数据流机制。我读到Nifi有一个流文件，其中包含内容和元数据（流文件属性）。

因此，我想了解是否在边缘节点上放置了1 TB的数据，并希望将其传递给Nifi处理器，这是否会将所有内容加载到内存中以供处理器使用？

apache-nifi

Sha*_*shi

lucky-day

1
推荐指数

1
解决办法

543
查看次数

无法启动Nifi | 数据库已被使用：“被另一个进程锁定”

我正在尝试启动nifi，但面对h2.jdbc.jdbcSqlException：数据库我已经在使用异常。

2017-02-20 16:09:04,189 INFO [main] /nifi-api No Spring WebApplicationInitializer types detected on classpath
2017-02-20 16:09:04,218 INFO [main] /nifi-api Initializing Spring root WebApplicationContext
2017-02-20 16:09:05,791 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Determined default nifi.properties path to be '/opt/nifi/current/./conf/nifi.properties'
2017-02-20 16:09:05,793 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Determined default nifi.properties path to be '/opt/nifi/current/./conf/nifi.properties'
2017-02-20 16:09:05,794 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Loaded 115 properties from /opt/nifi/current/./conf/nifi.properties
2017-02-20 16:09:07,878 ERROR [main] o.s.web.context.ContextLoader Context initialization failed
org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'niFiWebApiSecurityConfiguration': Injection of autowired dependencies failed; nested exception is org.springframework.beans.factory.BeanCreationException: …

Run Code Online (Sandbox Code Playgroud)

apache-nifi

Sha*_*shi

lucky-day

1
推荐指数

1
解决办法

825
查看次数

适用于1000多个主题的Spark Streaming设计

我必须使用以下用例设计一个Spark Streaming应用程序。我正在为此寻找最佳方法。

我有一个将数据推入1000多个不同主题的应用程序，每个主题都有不同的用途。Spark流式处理将从每个主题接收数据，并且在处理之后，它将回写到相应的另一个主题。

Ex. 

Input Type 1 Topic  --> Spark Streaming --> Output Type 1 Topic 
Input Type 2 Topic  --> Spark Streaming --> Output Type 2 Topic 
Input Type 3 Topic  --> Spark Streaming --> Output Type 3 Topic 
.
.
.
Input Type N Topic  --> Spark Streaming --> Output Type N Topic  and so on.

Run Code Online (Sandbox Code Playgroud)

我需要回答以下问题。