我刚刚下载了spark-2.3.0-bin-hadoop2.7.tgz。下载后,我按照此处提到的步骤为Windows 10安装pyspark。我使用注释bin \ pyspark来运行spark和得到错误消息
The system cannot find the path specified
Run Code Online (Sandbox Code Playgroud)
我的path变量的屏幕截图看起来像
我在 Ubuntu 14 上使用 Anaconda 和 Python 2.7.14 和spyder 3.2.6。您能否建议我如何从 Ubuntu 访问 anaconda promt?通过 Anaconda 提示,我的意思是这个
我有一个熊猫数据框gmat.样本数据看起来像
YEAR student score mail_id phone Loc
2012 abc 630 abc@xyz.com 1-800-000-000 pqr
2012 pqr 630 pqr@xyz.com 1-800-000-000 abc
Run Code Online (Sandbox Code Playgroud)
我想迭代这个数据帧并从这个数据帧的行中创建一个数据帧for循环并使用该数据帧进行计算.for循环中的每次迭代都会用迭代中的当前行覆盖先前的数据帧.例如,for循环中的第一个数据框看起来像
YEAR student score mail_id phone Loc
2012 abc 630 abc@xyz.com 1-800-000-000 pqr
Run Code Online (Sandbox Code Playgroud)
覆盖第一行后的第二个数据帧看起来像
YEAR student score mail_id phone Loc
2012 pqr 630 pqr@xyz.com 1-800-000-000 abc
Run Code Online (Sandbox Code Playgroud)
所以我尝试了下面的代码
for row in gmat.iterrows():
df=pd.DataFrame(list(row))
Run Code Online (Sandbox Code Playgroud)
但是在检查时我发现df没有正确填充.它只显示2列你能建议我怎么做吗?
我也根据Georgy的建议尝试了这个,我用过for index, row in gmat.iterrows().在这里我得到的行pd.Series然后我正在使用gmrow=pd.DataFrame(row)但是我的原始数据的列标题将成为行.数据我得到了
YEAR 2012
student abc
score 630
mail_id abc@xyz.com
phone 1-800-000-000
Loc pqr
我有一个python列表l.列表的前几个元素如下所示
[751883787]
[751026090]
[752575831]
[751031278]
[751032392]
[751027358]
[751052118]
Run Code Online (Sandbox Code Playgroud)
我想将此列表转换为pandas.core.series.Series,其中2个前导0.我的最终结果将如下所示
00751883787
00751026090
00752575831
00751031278
00751032392
00751027358
00751052118
Run Code Online (Sandbox Code Playgroud)
我在Windows环境下使用Python 3.x.你能建议我怎么做吗?我的列表中还包含大约2000000个元素