在线找到这种文件非常困难.
我在JAVAWORLD中找到了一个,但这个不包括jjTree和访客.
有没有人碰巧有一些指向教程的链接?
我想学习如何使用jsonp和python.我搜索了任何有用的教程.但是,似乎那里没有那么多资源.
因此,我想问一下,如果有人知道我可以使用的任何教程,API或任何最佳实践.
谢谢.
我正在使用elasticsearch中加载的一些测试数据在本地计算机上测试ElasticSearch和Spark集成.
val sparkConf = new SparkConf().setAppName("Test").setMaster("local")
val sc = new SparkContext(sparkConf)
val conf = new JobConf()
conf.set("spark.serializer", classOf[KryoSerializer].getName)
conf.set("es.nodes", "localhost:9200")
conf.set("es.resource", "bank/account")
conf.set("es.query", "?q=firstname:Daniel")
val esRDD = sc.hadoopRDD(conf,classOf[EsInputFormat[Text, MapWritable]],
classOf[Text], classOf[MapWritable])
esRDD.first()
esRDD.collect()
Run Code Online (Sandbox Code Playgroud)
代码运行正常并使用esRDD.first()成功返回正确的结果
但是,esRDD.collect()将生成异常:
java.io.NotSerializableException: org.apache.hadoop.io.Text
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184)
at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
at java.io.ObjectOutputStream.writeArray(ObjectOutputStream.java:1378)
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1174)
at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348)
at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:42)
at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:71)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:193)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)
Run Code Online (Sandbox Code Playgroud)
我相信这与这里提到的问题有关http://www.elasticsearch.org/guide/en/elasticsearch/hadoop/current/spark.html 所以我相应地添加了这一行
conf.set("spark.serializer", classOf[KryoSerializer].getName)
Run Code Online (Sandbox Code Playgroud)
我应该做些什么来让它发挥作用吗?谢谢
更新:序列化设置问题已解决.通过使用
sparkConf.set("spark.serializer", classOf[KryoSerializer].getName)
Run Code Online (Sandbox Code Playgroud)
代替
conf.set("spark.serializer", classOf[KryoSerializer].getName)
Run Code Online (Sandbox Code Playgroud)
现在还有另一个此数据集中有1000条不同的记录
esRDD.count()
Run Code Online (Sandbox Code Playgroud)
但是,返回1000没问题 …
serialization elasticsearch apache-spark elasticsearch-hadoop
在解析某些xml文件的过程中,我遇到了一种情况,我必须使用接口作为标签来识别某些标签属于某个类别,例如,我创建了一个Tag接口来识别这些类用于表示xml标签和ContainableTag指出某些标签可以是某些标签的子标签之一.
然后我偶然发现了这个页面:http://xahlee.org/java-a-day/interface.html(请查看" Interface as Labels "会话.).它说:
问题的关键在于它在语言中是一种数学上无关紧要的东西.作为语言中的标记机制,为了从软件工程角度可能获益,它不应该被设计为类接口的一部分,因为标记的概念和编程接口的概念在语义上是不同的.
那么界面作为标签必然是一种不好的做法?作为一名java程序员,我们还有其他选择吗?
好吧,这似乎是一个愚蠢的问题,因为我们有这个
但是,到目前为止,我只能通过使用以下方式成功显示缩略图:
PhotoEntry photo = //somehow I get the instance
photo.getMediaThumbnails().get(0).getUrl()
Run Code Online (Sandbox Code Playgroud)
我可以通过这种方法显示的最大照片最多可达300像素[也就是photo.getMediaThumbnails().get(3)].如何显示最大400像素甚至800像素的缩略图?或者,我怎样才能回到可以帮助我显示这张照片的谷歌picasa页面?
谢谢
SAX 中有一个定位器,它跟踪当前位置。但是,当我在 startElement() 中调用它时,它总是返回 xml 标记的结束位置。
如何获取标签的起始位置?有什么办法可以优雅地解决这个问题吗?
我是Spring MVC的新手.但我在使用Struts 1.x方面有一定的经验.我想知道在使用Spring MVC时是否通常自定义DispatcherServlet,就像人们有时在Struts 1.x中自定义ActionServlet或RequestProcessor一样?
或者让我们稍微扩展一下这个问题.资深Spring MVC程序员定制MVC框架的入口点在哪里?
谢谢.
原标题:除了HDFS之外,还有什么其他DFS能够引发支持(并且被推荐)?
我很高兴地使用spark和elasticsearch(带有elasticsearch-hadoop驱动程序)和几个巨大的集群.
我不时会将整个数据集拉出来,处理每个文档,并将所有数据放入不同的Elasticsearch(ES)集群中(是的,数据迁移也是如此).
目前,无法将集群中的ES数据读入RDD,并使用spark + elasticsearch-hadoop将SparkContextRDD 写入不同的RDD ,因为这将涉及从RDD 交换.所以我想将RDD写入目标文件,然后再将它们读回到具有不同SparkContexts 的RDD中.
但是,问题出现了:我需要一个DFS(分布式文件系统)来共享整个spark集群中的大文件.最流行的解决方案是HDFS,但我会非常避免将Hadoop引入我的堆栈.是否还有其他推荐的DFS可以支持火花?
在下面更新
感谢@Daniel Darabos在下面的回答,我现在可以使用以下Scala代码从/向不同的ElasticSearch集群读取和写入数据:
val conf = new SparkConf().setAppName("Spark Migrating ES Data")
conf.set("es.nodes", "from.escluster.com")
val sc = new SparkContext(conf)
val allDataRDD = sc.esRDD("some/lovelydata")
val cfg = Map("es.nodes" -> "to.escluster.com")
allDataRDD.saveToEsWithMeta("clone/lovelydata", cfg)
Run Code Online (Sandbox Code Playgroud) microsoft-distributed-file-system hdfs elasticsearch apache-spark elasticsearch-hadoop
Lift中常用的DB模式迁移工具或库有哪些?
django还是铁路上还有南方的东西.或者这种方法在Lift中被认为是过时的,人们已经转向了一些新的方法?
java ×4
apache-spark ×2
api ×1
hdfs ×1
interface ×1
javacc ×1
jsonp ×1
label ×1
lift ×1
microsoft-distributed-file-system ×1
migration ×1
objective-c ×1
picasa ×1
python ×1
sax ×1
scala ×1
schema ×1
spring ×1
spring-mvc ×1