小编Chr*_*hes的帖子

运行pyspark时系统找不到指定的路径错误

我刚刚下载了spark-2.3.0-bin-hadoop2.7.tgz。下载后,我按照此处提到的步骤为Windows 10安装pyspark。我使用注释bin \ pyspark来运行spark和得到错误消息

The system cannot find the path specified
Run Code Online (Sandbox Code Playgroud)

附件是错误消息的屏幕截图在此处输入图片说明

附件是我的Spark Bin文件夹的屏幕截图 在此处输入图片说明

我的path变量的屏幕截图看起来像

在此处输入图片说明 在此处输入图片说明 我的Windows 10系统中有python 3.6和Java“ 1.8.0_151”,您能建议我如何解决此问题吗?

apache-spark pyspark

9
推荐指数
3
解决办法
9911
查看次数

如何在 Ubuntu 中运行 Anaconda pompt

我在 Ubuntu 14 上使用 Anaconda 和 Python 2.7.14 和spyder 3.2.6。您能否建议我如何从 Ubuntu 访问 anaconda promt?通过 Anaconda 提示,我的意思是这个

在此输入图像描述

python ubuntu

5
推荐指数
1
解决办法
2万
查看次数

如何迭代Pandas数据帧行并在每次迭代中创建数据帧

我有一个熊猫数据框gmat.样本数据看起来像

YEAR  student score mail_id      phone            Loc
2012  abc     630   abc@xyz.com  1-800-000-000   pqr
2012  pqr     630   pqr@xyz.com  1-800-000-000   abc
Run Code Online (Sandbox Code Playgroud)

我想迭代这个数据帧并从这个数据帧的行中创建一个数据帧for循环并使用该数据帧进行计算.for循环中的每次迭代都会用迭代中的当前行覆盖先前的数据帧.例如,for循环中的第一个数据框看起来像

YEAR  student score mail_id      phone            Loc
2012  abc     630   abc@xyz.com  1-800-000-000   pqr
Run Code Online (Sandbox Code Playgroud)

覆盖第一行后的第二个数据帧看起来像

YEAR  student score mail_id      phone            Loc
2012  pqr     630   pqr@xyz.com  1-800-000-000   abc
Run Code Online (Sandbox Code Playgroud)

所以我尝试了下面的代码

for row in gmat.iterrows():
    
    df=pd.DataFrame(list(row))
Run Code Online (Sandbox Code Playgroud)

但是在检查时我发现df没有正确填充.它只显示2列你能建议我怎么做吗?

我也根据Georgy的建议尝试了这个,我用过for index, row in gmat.iterrows().在这里我得到的行pd.Series然后我正在使用gmrow=pd.DataFrame(row)但是我的原始数据的列标题将成为行.数据我得到了 YEAR 2012 student abc score 630 mail_id abc@xyz.com phone 1-800-000-000 Loc pqr

python

2
推荐指数
1
解决办法
4595
查看次数

如何将python列表转换为Pandas系列

我有一个python列表l.列表的前几个元素如下所示

[751883787]
[751026090]
[752575831]
[751031278]
[751032392]
[751027358]
[751052118]
Run Code Online (Sandbox Code Playgroud)

我想将此列表转换为pandas.core.series.Series,其中2个前导0.我的最终结果将如下所示

00751883787
00751026090
00752575831
00751031278
00751032392
00751027358
00751052118
Run Code Online (Sandbox Code Playgroud)

我在Windows环境下使用Python 3.x.你能建议我怎么做吗?我的列表中还包含大约2000000个元素

python pandas

2
推荐指数
1
解决办法
7965
查看次数

标签 统计

python ×3

apache-spark ×1

pandas ×1

pyspark ×1

ubuntu ×1