小编Sac*_*ani的帖子

Pyspark --py文件不起作用

我使用此文件建议http://spark.apache.org/docs/1.1.1/submitting-applications.html

spsark版本1.1.0

./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip \
/home/hadoop/loganalysis/ship-test.py 
Run Code Online (Sandbox Code Playgroud)

和代码中的conf:

conf = (SparkConf()
        .setMaster("yarn-client")
        .setAppName("LogAnalysis")
        .set("spark.executor.memory", "1g")
        .set("spark.executor.cores", "4")
        .set("spark.executor.num", "2")
        .set("spark.driver.memory", "4g")
        .set("spark.kryoserializer.buffer.mb", "128"))
Run Code Online (Sandbox Code Playgroud)

和slave节点抱怨ImportError

14/12/25 05:09:53 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, ip-172-31-10-8.cn-north-1.compute.internal): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/home/hadoop/spark/python/pyspark/worker.py", line 75, in main
    command = pickleSer._read_with_length(infile)
  File "/home/hadoop/spark/python/pyspark/serializers.py", line 150, in _read_with_length
    return self.loads(obj)
ImportError: No module named parser
Run Code Online (Sandbox Code Playgroud)

和parser-src.zip在本地测试.

[hadoop@ip-172-31-10-231 ~]$ python
Python 2.7.8 (default, Nov  3 2014, 10:17:30) 
[GCC 4.8.2 20140120 …
Run Code Online (Sandbox Code Playgroud)

python hadoop emr apache-spark

17
推荐指数
3
解决办法
3万
查看次数

Cassandra静态柱设计

如何将静态列存储在cassandra内部?有人可以发一个例子来讨论cassandra中静态列的设计实现吗?

cassandra cassandra-2.0

9
推荐指数
1
解决办法
1799
查看次数

区别于Hive中的多个列

嗨,Hive支持多列上的不同.比如从表中选择distinct(a,b,c,d).如果没有,有没有办法实现这一目标?

hadoop hive apache-hive

7
推荐指数
2
解决办法
2万
查看次数

如何在不使用spark-submit的情况下将java程序中的spark作业提交到独立的spark集群?

我使用spark来执行一些计算但是希望它从java应用程序提交.当使用spark-submit脚本提交时,它正常工作.有人试过这样做吗?

谢谢.

java apache-spark

7
推荐指数
1
解决办法
6138
查看次数

如何在SparkSQL中使用Dataframe获取行的迭代器

我在SparkSQL中有一个应用程序返回大量非常难以适应内存的行,因此我无法在DataFrame上使用collect函数,是否有一种方法可以将所有这些行作为Iterable instaed of整个行作为列表.

注意:我正在使用yarn-client执行此SparkSQL应用程序

apache-spark apache-spark-sql apache-spark-1.3

7
推荐指数
1
解决办法
5709
查看次数

org.apache.spark.sql.catalyst.errors.package$TreeNodeException:执行,树:

我正在尝试注册一个简单的 UDF,用于使用 Scala Luna Eclipse IDE 在 spark 中提取日期功能。这是我的代码:
sqlContext.udf.register("extract", (dateUnit: String, date : String) => udf.extract(dateUnit,date ) )

 def extract(dateUnit : String, date: String) :  String = {
    val splitArray : Array[String] = date.split("-") 
        val result  = dateUnit.toUpperCase() match {
      case "YEAR" => splitArray(0)
      case "MONTH" => splitArray(1)
      case "DAY" => splitArray(2)
      case whoa => "Unexpected case :" + whoa.toString()
    }
    return result ;
  }
Run Code Online (Sandbox Code Playgroud)

当我通过 Eclipse 控制台执行此功能时 Select * from date_dim WHERE d_dom < extract('YEAR', '2015-05-01') limit 10" …

eclipse scala apache-spark apache-spark-sql udf

6
推荐指数
0
解决办法
7843
查看次数

在Spark实时流中刷新Dataframe而不停止进程

在我的应用程序中,我从Kafka队列获得了一个帐户流(使用带有kafka的Spark流)

我需要从S3获取与这些帐户相关的属性,因此我计划缓存S3结果数据帧,因为S3数据暂时不会更新至今一天,未来可能会很快变为1小时或10分钟.所以问题是如何定期刷新缓存的数据框而不停止进程.

**更新:我计划在S3中有更新时使用SNS和AWS lambda将事件发布到kafka,我的流应用程序将订阅事件并根据此事件刷新缓存的数据帧(基本上是unpersist()缓存和从S3重新加载)这是一个好方法吗?

amazon-s3 apache-spark spark-streaming spark-dataframe snappydata

3
推荐指数
1
解决办法
1060
查看次数

Apache spark- bigdata

假设我们有100 GB的文件.我的系统是60gb.Aow apache spark会处理这些数据吗?我们都知道spark基于集群自己执行分区.但是当内存量减少时,我想知道火花是如何处理它的

bigdata apache-spark

2
推荐指数
1
解决办法
259
查看次数