小编Ved*_*ant的帖子

像Spyder一样运行PySpark和IDE？

我可以从终端线运行PySpark,一切正常.

~/spark-1.0.0-bin-hadoop1/bin$ ./pyspark

Run Code Online (Sandbox Code Playgroud)

欢迎来到

      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 1.0.0
      /_/

使用Python 2.7.6版(默认,2014年5月27日14:50:58)

但是当我在Python IDE上尝试这个时

import pyspark

Run Code Online (Sandbox Code Playgroud)

ImportError:没有名为pyspark的模块

如何导入它像其他Python库如numpy,scikit等？

在终端工作正常,我只想在IDE中工作.

python-2.7 apache-spark

Ved*_*ant

2014 06-20

12
推荐指数

2
解决办法

2万
查看次数

小猪concat相当于猪吗？

试图在Pig上完成这项工作.(寻找与MySQL相当的group_concat())

例如,在我的表中,我有:(3fields- userid,clickcount,pagenumber)

155 | 2 | 12
155 | 3 | 133
155 | 1 | 144
156 | 6 | 1
156 | 7 | 5

Run Code Online (Sandbox Code Playgroud)

所需的输出是:

155| 2,3,1 | 12,133,144

156| 6,7 | 1,5

Run Code Online (Sandbox Code Playgroud)

我怎样才能在PIG上实现这一目标？

mysql hadoop apache-pig

Ved*_*ant

2013 09-14

5
推荐指数

1
解决办法

1291
查看次数

查找大型数据集的均值和标准差

我在S3上有大约1500个文件(每个文件看起来像这样:)

格式:
UserId\t ItemId:得分,ItemdId:得分,ItemId:得分\n用户
ID\t ItemId:得分,ItemdId:得分,ItemId:得分\n

我把文件读成:

import scala.io.Source
val FileRead = Source.fromFile("/home/home/testdataFile1").mkString

Run Code Online (Sandbox Code Playgroud)

这是我得到的一个例子:

1152 401368:1.006,401207:1.03
1184 401230:1.119,40049:1.11,40029:1.31

如何计算变量"得分"的平均值和标准差？

scala apache-spark

Ved*_*ant

2018 07-09

0
推荐指数

1
解决办法

1万
查看次数

标签统计

apache-spark ×2

apache-pig ×1

hadoop ×1

mysql ×1

python-2.7 ×1

scala ×1

像Spyder一样运行PySpark和IDE？

小猪concat相当于猪吗？

查找大型数据集的均值和标准差

标签 统计

小编Ved_ant的帖子

标签统计