小编Sha*_*shi的帖子

DataSet API和DataFrame API之间的区别

有没有人可以通过示例帮助我理解DataSet API和DataFrame API之间的区别?为什么需要在Spark中引入DataSet API?

apache-spark rdd apache-spark-sql apache-spark-dataset

49
推荐指数
0
解决办法
3万
查看次数

Nifi和Mini NiFi(MiNiFi)的区别

我只是想知道迷你NiFi MiNiFi与NiFi有何不同?

我们还有其他功能吗?为什么需要引入它?

任何想法或链接都会有很大的帮助.

apache-nifi

27
推荐指数
2
解决办法
8438
查看次数

Apache Spark中的reduce()与fold()

reducefold技术实施之间的区别是什么?

我知道它们的签名不同,因为它们fold接受附加的参数(即初始值),该参数被添加到每个分区输出中。

  • 有人可以告知这两个操作的用例吗?
  • 考虑将0用作哪种方案,哪种方案会更好fold

提前致谢。

reduce scala fold apache-spark rdd

6
推荐指数
1
解决办法
6094
查看次数

HDF和Apache NiFi之间的区别

我试图了解Apache Nifi和Hortonworks Data Flow(HDF)之间的区别.

它们在能力和整体设计方面有何不同?Nifi和HDF的用例有哪些?

hortonworks-data-platform apache-nifi

6
推荐指数
1
解决办法
2881
查看次数

从 Sonar Lint 生成代码质量报告

我有一个用 Eclipse 编写的由 SonarLint 监控的 java 代码。我需要从声纳生成报告,有人知道该怎么做吗?

谢谢

eclipse sonarlint

6
推荐指数
1
解决办法
2万
查看次数

将名称设置为RDD的优点

有可用于为RDD分配名称的API.

例如

val y = sc.parallelize(List(1,2,3))
y.setName("New Name")
Run Code Online (Sandbox Code Playgroud)

它的优点是什么?在Spark中可以使用此功能的任何特定原因?

提前致谢.

scala apache-spark

5
推荐指数
1
解决办法
2205
查看次数

更快速地开发和测试新的Nifi处理器

我正在为我的数据流开发新的Nifi处理器.我在eclipse中进行代码更改,创建新的.nar文件并将其复制到Nifi lib进行测试.

在永远的更新Nifi需要重新启动,这需要花费大量的时间.

有没有更好的方法在Nifi中测试你的新.nar?因为每次小的更改都会重新启动Nifi会降低开发速度.

apache-nifi

5
推荐指数
2
解决办法
1305
查看次数

MapR-DB和Hbase之间的区别

我在MapR中有点新,但我知道hbase.我正在阅读其中一个视频,我发现Mapr-DB是MapR中的NoSQL DB,它与Hbase类似.除此之外,Hbase也可以在MapR上运行.我在MapR-Db和Hbase之间感到困惑.它们之间的确切区别是什么?

何时使用Mapr-DB以及何时使用Hbase?

基本上我有一个java代码在MapR上的Hbase中进行批量加载,现在这里如果我使用我用于Apache hadoop的相同代码,那么代码在这里工作吗?

请帮我避免这种混乱.

hadoop hbase mapr

4
推荐指数
2
解决办法
7603
查看次数

SaveMode 在 Spark SQL 中不起作用

我正在使用 SaveMode 选项运行 Spark SQL 示例,但出现以下错误。

val df = sqlContext.read.format("json").load("/user/root/spark/data/people.json")
df.select("name","age").write.format("json").save("Output",SaveMode.ErrorIfExist)


<console>:35: error: overloaded method value save with alternatives:
  ()Unit <and>
  (path: String)Unit
 cannot be applied to (String, org.apache.spark.sql.SaveMode)
              df.select("name", "age").write.format("json").save("Output",SaveMode.ErrorIfExists
Run Code Online (Sandbox Code Playgroud)

我检查了文档,它说 SaveMode 已被弃用。我该如何解决?

任何建议。

scala apache-spark apache-spark-sql

2
推荐指数
1
解决办法
1万
查看次数

NiFi | FlowFile内存依赖性

我正在尝试了解NiFi数据流机制。我读到Nifi有一个流文件,其中包含内容和元数据(流文件属性)。

因此,我想了解是否在边缘节点上放置了1 TB的数据,并希望将其传递给Nifi处理器,这是否会将所有内容加载到内存中以供处理器使用?

apache-nifi

1
推荐指数
1
解决办法
543
查看次数

无法启动Nifi | 数据库已被使用:“被另一个进程锁定”

我正在尝试启动nifi,但面对h2.jdbc.jdbcSqlException:数据库我已经在使用异常。

2017-02-20 16:09:04,189 INFO [main] /nifi-api No Spring WebApplicationInitializer types detected on classpath
2017-02-20 16:09:04,218 INFO [main] /nifi-api Initializing Spring root WebApplicationContext
2017-02-20 16:09:05,791 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Determined default nifi.properties path to be '/opt/nifi/current/./conf/nifi.properties'
2017-02-20 16:09:05,793 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Determined default nifi.properties path to be '/opt/nifi/current/./conf/nifi.properties'
2017-02-20 16:09:05,794 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Loaded 115 properties from /opt/nifi/current/./conf/nifi.properties
2017-02-20 16:09:07,878 ERROR [main] o.s.web.context.ContextLoader Context initialization failed
org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'niFiWebApiSecurityConfiguration': Injection of autowired dependencies failed; nested exception is org.springframework.beans.factory.BeanCreationException: …
Run Code Online (Sandbox Code Playgroud)

apache-nifi

1
推荐指数
1
解决办法
825
查看次数

适用于1000多个主题的Spark Streaming设计

我必须使用以下用例设计一个Spark Streaming应用程序。我正在为此寻找最佳方法。

我有一个将数据推入1000多个不同主题的应用程序,每个主题都有不同的用途。Spark流式处理将从每个主题接收数据,并且在处理之后,它将回写到相应的另一个主题。

Ex. 

Input Type 1 Topic  --> Spark Streaming --> Output Type 1 Topic 
Input Type 2 Topic  --> Spark Streaming --> Output Type 2 Topic 
Input Type 3 Topic  --> Spark Streaming --> Output Type 3 Topic 
.
.
.
Input Type N Topic  --> Spark Streaming --> Output Type N Topic  and so on.
Run Code Online (Sandbox Code Playgroud)

我需要回答以下问题。

  1. 每个主题启动1000个以上的Spark Streaming应用程序是一个好主意吗?或者我应该为所有主题提供一个流应用程序,因为处理逻辑将是相同的?
  2. 如果是一个流上下文,那么我将如何确定哪个RDD属于哪个Kafka主题,以便在处理之后可以将其写回到其对应的OUTPUT主题?
  3. 客户端可以从Kafka添加/删除主题,如何在Spark流中动态处理?
  4. 如何在出现故障时自动重新启动作业?

你们还有其他问题吗?

非常感谢您的回应。

apache-spark spark-streaming spark-dataframe

1
推荐指数
1
解决办法
766
查看次数