小编kra*_*ter的帖子

Pandas Dataframe到RDD

我可以将Pandas DataFrame转换为RDD吗?

if isinstance(data2, pd.DataFrame):
    print 'is Dataframe'
else:
    print 'is NOT Dataframe'
Run Code Online (Sandbox Code Playgroud)

是DataFrame

这是尝试使用.rdd时的输出

dataRDD = data2.rdd
print dataRDD
Run Code Online (Sandbox Code Playgroud)
AttributeError                            Traceback (most recent call last)
<ipython-input-56-7a9188b07317> in <module>()
----> 1 dataRDD = data2.rdd
      2 print dataRDD

/usr/lib64/python2.7/site-packages/pandas/core/generic.pyc in __getattr__(self, name)
   2148                 return self[name]
   2149             raise AttributeError("'%s' object has no attribute '%s'" %
-> 2150                                  (type(self).__name__, name))
   2151 
   2152     def __setattr__(self, name, value):

AttributeError: 'DataFrame' object has no attribute 'rdd'
Run Code Online (Sandbox Code Playgroud)

我想使用Pandas Dataframe而不是sqlContext来构建,因为我不确定Pandas DF中的所有函数是否都可以在Spark中使用.如果这是不可能的,是否有人可以提供使用Spark DF的示例

dataframe pandas apache-spark apache-spark-sql pyspark

12
推荐指数
1
解决办法
2万
查看次数

Apache Phoenix vs Hive-Spark

什么更快/更容易转换为SQL,接受SQL脚本作为输入:Spark SQL作为Hive高延迟查询或Phoenix的一层速度?如果是这样,怎么样?我需要对数据进行大量的upserts/join/grouping.[HBase的]

在Cassandra CQL之上是否有任何替代方案可以支持上述(以实时方式加入/分组)?

因为我想利用MLlib,所以我很可能一定要使用Spark.但是为了处理应该是我的选择的数据呢?

谢谢,克拉斯特

hbase hive phoenix cassandra apache-spark

6
推荐指数
1
解决办法
4487
查看次数

IPython - 缺少ipython_notebook_config.py

当我创建配置文件时,只创建了2个配置文件,而不是5个.

ipython profile create test_3

[ProfileCreate] Generating default config file: u'/root/.ipython/profile_test_3/ipython_config.py'
[ProfileCreate] Generating default config file: u'/root/.ipython/profile_test_3/ipython_kernel_config.py'
Run Code Online (Sandbox Code Playgroud)

我安装了2个版本的python,2.6.6和2.7.我已经为python创建了一个使用/usr/bin/python2.7的别名

我已经安装了easy_install和pip

使用pip安装的软件包的完整列表:

alabaster(0.7.6)appnope(0.1.0)Babel(2.0)backports.ssl-match-hostname(3.4.0.2)certifi(2015.4.28)decorator(4.0.2)Django(1.8.3)docutils(0.12) funcsigs(0.4)functools32(3.2.3.post2)gnureadline(6.3.3)ipykernel(4.0.3)ipyparallel(4.0.0) ipython(4.0.0)ipython-genutils(0.1.0) ipywidgets(4.0.2)Jinja2(2.8)jsonschema(2.5.1)jupyter-client(4.0.0)jupyter-core(4.0.2)MarkupSafe(0.23)matplotlib(1.4.3)mistune(0.7)mock(1.3. 0)nbconvert(4.0.0)nbformat(4.0.0)nose(1.3.7)notebook(4.0.1)numpy(1.9.2)numpydoc(0.5)pandas(0.16.2)path.py(7.6)pbr( 1.4.0)pexpect(3.3)pickleshare(0.5)pip(7.1.0)ptyprocess(0.5)Pygments(2.0.2)pyparsing(2.0.3)pyreadline(2.0)python-dateutil(2.4.2)pytz(2015.4) pyzmq(14.7.0)qtconsole(4.0.0)requests(2.7.0)scikit-learn(0.16.1)scipy(0.16.0)setuptools(18.1)simplegeneric(0.8.1)six(1.9.0)snowballstemmer( 1.2.0)Sphinx(1.3.1)sphinx-rtd-theme(0.1.8)terminado(0.5)testpath(0.2)tornado(4.2.1)traitlets(4.0.0)

我错过了什么吗?有人可以将我链接到ipython_notebook_config.py文件,以便我可以在默认配置文件中使用它吗?强制执行是错误的吗?

我已经从网上添加了一个ipython_notebook_config.py并对其进行了编辑......它似乎忽略了它.我正在指定端口8888,它的列表端口为8889.此外,我无法连接到那个笔记本.

ipython python-2.7

6
推荐指数
2
解决办法
4665
查看次数

与pyspark不同,spark-submit引发错误

我一直在使用Ipython笔记本测试脚本并将pyspark传递给它。我想要完成的所有事情都运作良好。

我还使用pyspark从命令行在没有笔记本的情况下运行了它,并且可以工作。

使用1.3.1版

使用spark-submit提交为作业时

spark-submit --master local[*] myscript.py
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

x_map = rdd.map(lambda s: (s[1][1],s[1][3])).distinct().toDF().toPandas()

AttributeError: 'PipelinedRDD' object has no attribute 'toDF'
Run Code Online (Sandbox Code Playgroud)

我的脚本的开头如下所示:

from pyspark import SparkContext
sc = SparkContext(appName="Whatever")

from pyspark.sql.types import *
from pyspark.sql import Row
import statsmodels.api as sm
import pandas as pd
import numpy as np
import sys
[..] other python modules

rdd = sc.textFile(input_file)
rdd = rdd.map(lambda line: (line.split(",")[1],[x for x in line.split(",")])).sortByKey()

x_map = rdd.map(lambda s: (s[1][1],s[1][3])).distinct().toDF().toPandas()
Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark

2
推荐指数
1
解决办法
2427
查看次数