我使用此文件建议http://spark.apache.org/docs/1.1.1/submitting-applications.html
spsark版本1.1.0
./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip \
/home/hadoop/loganalysis/ship-test.py
Run Code Online (Sandbox Code Playgroud)
和代码中的conf:
conf = (SparkConf()
.setMaster("yarn-client")
.setAppName("LogAnalysis")
.set("spark.executor.memory", "1g")
.set("spark.executor.cores", "4")
.set("spark.executor.num", "2")
.set("spark.driver.memory", "4g")
.set("spark.kryoserializer.buffer.mb", "128"))
Run Code Online (Sandbox Code Playgroud)
和slave节点抱怨ImportError
14/12/25 05:09:53 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, ip-172-31-10-8.cn-north-1.compute.internal): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "/home/hadoop/spark/python/pyspark/worker.py", line 75, in main
command = pickleSer._read_with_length(infile)
File "/home/hadoop/spark/python/pyspark/serializers.py", line 150, in _read_with_length
return self.loads(obj)
ImportError: No module named parser
Run Code Online (Sandbox Code Playgroud)
和parser-src.zip在本地测试.
[hadoop@ip-172-31-10-231 ~]$ python
Python 2.7.8 (default, Nov 3 2014, 10:17:30)
[GCC 4.8.2 20140120 …Run Code Online (Sandbox Code Playgroud) 如何将静态列存储在cassandra内部?有人可以发一个例子来讨论cassandra中静态列的设计实现吗?
嗨,Hive支持多列上的不同.比如从表中选择distinct(a,b,c,d).如果没有,有没有办法实现这一目标?
我使用spark来执行一些计算但是希望它从java应用程序提交.当使用spark-submit脚本提交时,它正常工作.有人试过这样做吗?
谢谢.
我在SparkSQL中有一个应用程序返回大量非常难以适应内存的行,因此我无法在DataFrame上使用collect函数,是否有一种方法可以将所有这些行作为Iterable instaed of整个行作为列表.
注意:我正在使用yarn-client执行此SparkSQL应用程序
我正在尝试注册一个简单的 UDF,用于使用 Scala Luna Eclipse IDE 在 spark 中提取日期功能。这是我的代码:
sqlContext.udf.register("extract", (dateUnit: String, date : String) => udf.extract(dateUnit,date ) )
def extract(dateUnit : String, date: String) : String = {
val splitArray : Array[String] = date.split("-")
val result = dateUnit.toUpperCase() match {
case "YEAR" => splitArray(0)
case "MONTH" => splitArray(1)
case "DAY" => splitArray(2)
case whoa => "Unexpected case :" + whoa.toString()
}
return result ;
}
Run Code Online (Sandbox Code Playgroud)
当我通过 Eclipse 控制台执行此功能时 Select * from date_dim WHERE d_dom < extract('YEAR', '2015-05-01') limit 10" …
在我的应用程序中,我从Kafka队列获得了一个帐户流(使用带有kafka的Spark流)
我需要从S3获取与这些帐户相关的属性,因此我计划缓存S3结果数据帧,因为S3数据暂时不会更新至今一天,未来可能会很快变为1小时或10分钟.所以问题是如何定期刷新缓存的数据框而不停止进程.
**更新:我计划在S3中有更新时使用SNS和AWS lambda将事件发布到kafka,我的流应用程序将订阅事件并根据此事件刷新缓存的数据帧(基本上是unpersist()缓存和从S3重新加载)这是一个好方法吗?
amazon-s3 apache-spark spark-streaming spark-dataframe snappydata
假设我们有100 GB的文件.我的系统是60gb.Aow apache spark会处理这些数据吗?我们都知道spark基于集群自己执行分区.但是当内存量减少时,我想知道火花是如何处理它的
apache-spark ×6
hadoop ×2
amazon-s3 ×1
apache-hive ×1
bigdata ×1
cassandra ×1
eclipse ×1
emr ×1
hive ×1
java ×1
python ×1
scala ×1
snappydata ×1
udf ×1