我可以从终端线运行PySpark,一切正常.
~/spark-1.0.0-bin-hadoop1/bin$ ./pyspark
Run Code Online (Sandbox Code Playgroud)
欢迎来到
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 1.0.0
/_/
使用Python 2.7.6版(默认,2014年5月27日14:50:58)
但是当我在Python IDE上尝试这个时
import pyspark
Run Code Online (Sandbox Code Playgroud)
ImportError:没有名为pyspark的模块
如何导入它像其他Python库如numpy,scikit等?
在终端工作正常,我只想在IDE中工作.
试图在Pig上完成这项工作.(寻找与MySQL相当的group_concat())
例如,在我的表中,我有:(3fields- userid,clickcount,pagenumber)
155 | 2 | 12
155 | 3 | 133
155 | 1 | 144
156 | 6 | 1
156 | 7 | 5
Run Code Online (Sandbox Code Playgroud)
所需的输出是:
155| 2,3,1 | 12,133,144
156| 6,7 | 1,5
Run Code Online (Sandbox Code Playgroud)
我怎样才能在PIG上实现这一目标?
我在S3上有大约1500个文件(每个文件看起来像这样:)
格式:
UserId\t ItemId:得分,ItemdId:得分,ItemId:得分\n用户
ID\t ItemId:得分,ItemdId:得分,ItemId:得分\n
我把文件读成:
import scala.io.Source
val FileRead = Source.fromFile("/home/home/testdataFile1").mkString
Run Code Online (Sandbox Code Playgroud)
这是我得到的一个例子:
1152 401368:1.006,401207:1.03
1184 401230:1.119,40049:1.11,40029:1.31
如何计算变量"得分"的平均值和标准差?