小编Ved*_*ant的帖子

像Spyder一样运行PySpark和IDE?

我可以从终端线运行PySpark,一切正常.

~/spark-1.0.0-bin-hadoop1/bin$ ./pyspark
Run Code Online (Sandbox Code Playgroud)

欢迎来到

      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 1.0.0
      /_/

使用Python 2.7.6版(默认,2014年5月27日14:50:58)

但是当我在Python IDE上尝试这个时

import pyspark
Run Code Online (Sandbox Code Playgroud)

ImportError:没有名为pyspark的模块

如何导入它像其他Python库如numpy,scikit等?

在终端工作正常,我只想在IDE中工作.

python-2.7 apache-spark

12
推荐指数
2
解决办法
2万
查看次数

小猪concat相当于猪吗?

试图在Pig上完成这项工作.(寻找与MySQL相当的group_concat())

例如,在我的表中,我有:(3fields- userid,clickcount,pagenumber)

155 | 2 | 12
155 | 3 | 133
155 | 1 | 144
156 | 6 | 1
156 | 7 | 5
Run Code Online (Sandbox Code Playgroud)

所需的输出是:

155| 2,3,1 | 12,133,144

156| 6,7 | 1,5
Run Code Online (Sandbox Code Playgroud)

我怎样才能在PIG上实现这一目标?

mysql hadoop apache-pig

5
推荐指数
1
解决办法
1291
查看次数

查找大型数据集的均值和标准差

我在S3上有大约1500个文件(每个文件看起来像这样:)

格式:
UserId\t ItemId:得分,ItemdId:得分,ItemId:得分\n用户
ID\t ItemId:得分,ItemdId:得分,ItemId:得分\n

我把文件读成:

import scala.io.Source
val FileRead = Source.fromFile("/home/home/testdataFile1").mkString 
Run Code Online (Sandbox Code Playgroud)

这是我得到的一个例子:

1152 401368:1.006,401207:1.03
1184 401230:1.119,40049:1.11,40029:1.31

如何计算变量"得分"的平均值和标准差?

scala apache-spark

0
推荐指数
1
解决办法
1万
查看次数

标签 统计

apache-spark ×2

apache-pig ×1

hadoop ×1

mysql ×1

python-2.7 ×1

scala ×1