小编Win*_*hen的帖子

val sparkConf = new SparkConf().setAppName("Test").setMaster("local")
val sc = new SparkContext(sparkConf)
val conf = new JobConf()
conf.set("spark.serializer", classOf[KryoSerializer].getName)
conf.set("es.nodes", "localhost:9200")
conf.set("es.resource", "bank/account")
conf.set("es.query", "?q=firstname:Daniel")

val esRDD = sc.hadoopRDD(conf,classOf[EsInputFormat[Text, MapWritable]],
      classOf[Text], classOf[MapWritable])
esRDD.first()
esRDD.collect()

Run Code Online (Sandbox Code Playgroud)

代码运行正常并使用esRDD.first()成功返回正确的结果

但是,esRDD.collect()将生成异常:

java.io.NotSerializableException: org.apache.hadoop.io.Text
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184)
    at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
    at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
    at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
    at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:1378)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174)
    at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348)
    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:42)
    at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:71)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:193)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)

Run Code Online (Sandbox Code Playgroud)

我相信这与这里提到的问题有关http://www.elasticsearch.org/guide/en/elasticsearch/hadoop/current/spark.html 所以我相应地添加了这一行

conf.set("spark.serializer", classOf[KryoSerializer].getName)

Run Code Online (Sandbox Code Playgroud)

我应该做些什么来让它发挥作用吗？谢谢

更新:序列化设置问题已解决.通过使用

sparkConf.set("spark.serializer", classOf[KryoSerializer].getName)

Run Code Online (Sandbox Code Playgroud)

代替

conf.set("spark.serializer", classOf[KryoSerializer].getName)

Run Code Online (Sandbox Code Playgroud)

现在还有另一个此数据集中有1000条不同的记录

esRDD.count()

Run Code Online (Sandbox Code Playgroud)

但是,返回1000没问题 …

serialization elasticsearch apache-spark elasticsearch-hadoop

use*_*226

2015 03-18

10
推荐指数

1
解决办法

3645
查看次数

接口作为标签在java OO中是一种不好的做法吗？

在解析某些xml文件的过程中,我遇到了一种情况,我必须使用接口作为标签来识别某些标签属于某个类别,例如,我创建了一个Tag接口来识别这些类用于表示xml标签和ContainableTag指出某些标签可以是某些标签的子标签之一.

然后我偶然发现了这个页面:http://xahlee.org/java-a-day/interface.html(请查看" Interface as Labels "会话.).它说:

问题的关键在于它在语言中是一种数学上无关紧要的东西.作为语言中的标记机制,为了从软件工程角度可能获益,它不应该被设计为类接口的一部分,因为标记的概念和编程接口的概念在语义上是不同的.

那么界面作为标签必然是一种不好的做法？作为一名java程序员,我们还有其他选择吗？

java label interface

Win*_*hen

lucky-day

8
推荐指数

3
解决办法

3421
查看次数

我们如何显示Picasa java API中的照片？

好吧,这似乎是一个愚蠢的问题,因为我们有这个

但是,到目前为止,我只能通过使用以下方式成功显示缩略图:

PhotoEntry photo = //somehow I get the instance
photo.getMediaThumbnails().get(0).getUrl()

Run Code Online (Sandbox Code Playgroud)

我可以通过这种方法显示的最大照片最多可达300像素[也就是photo.getMediaThumbnails().get(3)].如何显示最大400像素甚至800像素的缩略图？或者,我怎样才能回到可以帮助我显示这张照片的谷歌picasa页面？

谢谢

java picasa

Win*_*hen

2012 02-21

7
推荐指数

3
解决办法

7987
查看次数

如何使用 SAX 获取 xml 标记的正确开始/结束位置？

SAX 中有一个定位器，它跟踪当前位置。但是，当我在 startElement() 中调用它时，它总是返回 xml 标记的结束位置。

如何获取标签的起始位置？有什么办法可以优雅地解决这个问题吗？

java sax

Win*_*hen

2009 07-03

6
推荐指数

1
解决办法

3526
查看次数

在Spring MVC中定制DispatcherServlet是一种常见的做法吗？

我是Spring MVC的新手.但我在使用Struts 1.x方面有一定的经验.我想知道在使用Spring MVC时是否通常自定义DispatcherServlet,就像人们有时在Struts 1.x中自定义ActionServlet或RequestProcessor一样？

或者让我们稍微扩展一下这个问题.资深Spring MVC程序员定制MVC框架的入口点在哪里？

谢谢.

java spring spring-mvc

Win*_*hen

2009 08-20

6
推荐指数

2
解决办法

1万
查看次数

如何在目标C中执行文档？

任何人都可以分享在目标C中执行文档的方法吗？有没有像java一样的标准方式？

documentation objective-c

Win*_*hen

lucky-day

6
推荐指数

2
解决办法

3150
查看次数

如何使用spark和elasticsearch-hadoop从/向不同的ElasticSearch集群读写？

原标题:除了HDFS之外,还有什么其他DFS能够引发支持(并且被推荐)？

我很高兴地使用spark和elasticsearch(带有elasticsearch-hadoop驱动程序)和几个巨大的集群.

我不时会将整个数据集拉出来,处理每个文档,并将所有数据放入不同的Elasticsearch(ES)集群中(是的,数据迁移也是如此).

目前,无法将集群中的ES数据读入RDD,并使用spark + elasticsearch-hadoop将SparkContextRDD 写入不同的RDD ,因为这将涉及从RDD 交换.所以我想将RDD写入目标文件,然后再将它们读回到具有不同SparkContexts 的RDD中.

但是,问题出现了:我需要一个DFS(分布式文件系统)来共享整个spark集群中的大文件.最流行的解决方案是HDFS,但我会非常避免将Hadoop引入我的堆栈.是否还有其他推荐的DFS可以支持火花？

在下面更新

感谢@Daniel Darabos在下面的回答,我现在可以使用以下Scala代码从/向不同的ElasticSearch集群读取和写入数据:

val conf = new SparkConf().setAppName("Spark Migrating ES Data")
conf.set("es.nodes", "from.escluster.com")

val sc = new SparkContext(conf)

val allDataRDD = sc.esRDD("some/lovelydata")

val cfg = Map("es.nodes" -> "to.escluster.com")
allDataRDD.saveToEsWithMeta("clone/lovelydata", cfg)

Run Code Online (Sandbox Code Playgroud)

microsoft-distributed-file-system hdfs elasticsearch apache-spark elasticsearch-hadoop

Win*_*hen

2017 02-07

6
推荐指数

1
解决办法

1907
查看次数