小编Sac*_*ani的帖子

Pyspark --py文件不起作用

我使用此文件建议http://spark.apache.org/docs/1.1.1/submitting-applications.html

spsark版本1.1.0

./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip \
/home/hadoop/loganalysis/ship-test.py

Run Code Online (Sandbox Code Playgroud)

和代码中的conf:

conf = (SparkConf()
        .setMaster("yarn-client")
        .setAppName("LogAnalysis")
        .set("spark.executor.memory", "1g")
        .set("spark.executor.cores", "4")
        .set("spark.executor.num", "2")
        .set("spark.driver.memory", "4g")
        .set("spark.kryoserializer.buffer.mb", "128"))

Run Code Online (Sandbox Code Playgroud)

和slave节点抱怨ImportError

14/12/25 05:09:53 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, ip-172-31-10-8.cn-north-1.compute.internal): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/home/hadoop/spark/python/pyspark/worker.py", line 75, in main
    command = pickleSer._read_with_length(infile)
  File "/home/hadoop/spark/python/pyspark/serializers.py", line 150, in _read_with_length
    return self.loads(obj)
ImportError: No module named parser

Run Code Online (Sandbox Code Playgroud)

和parser-src.zip在本地测试.

[hadoop@ip-172-31-10-231 ~]$ python
Python 2.7.8 (default, Nov  3 2014, 10:17:30) 
[GCC 4.8.2 20140120 …

Run Code Online (Sandbox Code Playgroud)

python hadoop emr apache-spark

C19*_*C19

2014 12-25

17
推荐指数

3
解决办法

3万
查看次数

Cassandra静态柱设计

如何将静态列存储在cassandra内部？有人可以发一个例子来讨论cassandra中静态列的设计实现吗？

cassandra cassandra-2.0

Sac*_*ani

2015 09-18

9
推荐指数

1
解决办法

1799
查看次数

区别于Hive中的多个列

嗨,Hive支持多列上的不同.比如从表中选择distinct(a,b,c,d).如果没有,有没有办法实现这一目标？

hadoop hive apache-hive

Bha*_*hra

2015 09-24

7
推荐指数

2
解决办法

2万
查看次数

如何在不使用spark-submit的情况下将java程序中的spark作业提交到独立的spark集群？

我使用spark来执行一些计算但是希望它从java应用程序提交.当使用spark-submit脚本提交时,它正常工作.有人试过这样做吗？

谢谢.

java apache-spark

Sac*_*ani

lucky-day

7
推荐指数

1
解决办法

6138
查看次数

如何在SparkSQL中使用Dataframe获取行的迭代器

我在SparkSQL中有一个应用程序返回大量非常难以适应内存的行,因此我无法在DataFrame上使用collect函数,是否有一种方法可以将所有这些行作为Iterable instaed of整个行作为列表.

注意:我正在使用yarn-client执行此SparkSQL应用程序

apache-spark apache-spark-sql apache-spark-1.3

Sac*_*ani

lucky-day

7
推荐指数

1
解决办法

5709
查看次数

org.apache.spark.sql.catalyst.errors.package$TreeNodeException：执行，树：

我正在尝试注册一个简单的 UDF，用于使用 Scala Luna Eclipse IDE 在 spark 中提取日期功能。这是我的代码：
sqlContext.udf.register("extract", (dateUnit: String, date : String) => udf.extract(dateUnit,date ) )

 def extract(dateUnit : String, date: String) :  String = {
    val splitArray : Array[String] = date.split("-") 
        val result  = dateUnit.toUpperCase() match {
      case "YEAR" => splitArray(0)
      case "MONTH" => splitArray(1)
      case "DAY" => splitArray(2)
      case whoa => "Unexpected case :" + whoa.toString()
    }
    return result ;
  }

Run Code Online (Sandbox Code Playgroud)

当我通过 Eclipse 控制台执行此功能时 Select * from date_dim WHERE d_dom < extract('YEAR', '2015-05-01') limit 10" …

eclipse scala apache-spark apache-spark-sql udf

Pre*_*ist

2015 10-15

6
推荐指数

0
解决办法

7843
查看次数