我尝试过多种方法无济于事.我有一个日期(YYYY-MM-DD)的数据,我试图得到的只是月份和年份,例如:MM-YYYY或YYYY-MM.
最终,我希望它看起来像这样:
ID Date Month_Yr
1 2004-02-06 2004-02
2 2006-03-14 2006-03
3 2007-07-16 2007-07
... ... ...
Run Code Online (Sandbox Code Playgroud)
我这样做的目的是希望在一段时间内从一些订单中平均赚取一个月赚来的钱.任何帮助,或推动正确的方向将非常感激.
我试图合并两个数据集.在过去,我已经使用merge()具有by等于我要合并的变量.但是,现在我想用两个变量来做.我的第一个数据集看起来像这样:
Year Winning_Tm Losing_Tm
2011 Texas Washington
2012 Alabama South Carolina
2013 Tennessee Texas
Run Code Online (Sandbox Code Playgroud)
然后我有另一个数据集,每个团队的每个团队的排名(这是非常简化的).像这样:
Year Team Rank
2011 Texas 32
2011 Washington 34
2012 South Carolina 45
2012 Alabama 12
2013 Texas 6
2013 Tennessee 51
Run Code Online (Sandbox Code Playgroud)
我想合并它们,所以我有一个如下所示的数据集:
Year Winning_Tm Winning_TM_rank Losing_Tm Losing_Tm_rank
2011 Texas 32 Washington 34
2012 Alabama 12 South Carolina 45
2013 Tennessee 51 Texas 6
Run Code Online (Sandbox Code Playgroud)
我希望有一种简单的方法可以做到这一点但它可能更复杂.谢谢!
我有一个名称列表,其中我已将其全部大写,删除了空格和非字母字符,以便更轻松地与另一个列表合并 - 两者都在 pandas 数据框中。
其中一个数据帧的名称JR末尾附加了一些名称,而另一个数据帧中的对应名称不包含此后缀。我怎样才能JR从两者中全部剥离?
我尝试了类似以下的操作:
df['NAME'] = df['NAME'].str.replace('JR','')
但我认为这会删除所有实例JR,而不是当它是最后两个字符时。任何帮助,将不胜感激。
我想matplotlib使用其中一个pcolor或另一个热图库制作热图。我找到了很多很好的例子,但无法确定如何以正确的格式获取我的数据,或者使用我的数据格式进行绘图。
这是我的数据的设置方式
X Y Value
0 1 .6
0 2 .3
0 3 .2
1 1 .8
1 2 .4
1 3 .9
Run Code Online (Sandbox Code Playgroud)
因此,X和Y列表示(X,Y)对,其中Value是相应单元格的值。我正在努力寻找一种方法来转换数据以使用pcolor或另一种绘图方法。任何帮助,将不胜感激。
我还没有找到答案。我正在尝试选择列号2和86:100。显然,我宁愿不按标签选择它们。
凭直觉,我尝试过:df_new = df.iloc[:,[2,86:100]]无济于事。
选择这些列的最有效方法是什么?
目前,我在一个单元格中使用 Spark 数据帧(自动加载器)时遇到一些问题,可能需要一些时间才能写入数据。然后,在下面的单元格中,代码引用第一个表完成的工作。但是,如果由于 Spark 的分布式特性而运行整个笔记本(特别是作为作业),则第二个单元会在第一个单元完全完成之前运行。如何让第二个单元等待 writeStream 完成,而不将它们放在单独的笔记本中。
例子:
小区1
autoload = pysparkDF.writeStream.format('delta')....table('TABLE1')
Run Code Online (Sandbox Code Playgroud)
细胞2
df = spark.sql('select count(*) from TABLE1')
Run Code Online (Sandbox Code Playgroud) 我已经使用group_by()indplyr或aggregate()函数在R. 对于我目前的问题,我想按个人分组,但要找到一列(数字)的第二低和另一列(年份)的最低。所以,如果我的数据是这样的:
Number Individual Year Value
123 M. Smith 2010 234
435 M. Smith 2011 346
435 M. Smith 2012 356
524 M. Smith 2015 432
119 J. Jones 2010 345
119 J. Jones 2012 432
254 J. Jones 2013 453
876 J. Jones 2014 654
Run Code Online (Sandbox Code Playgroud)
我希望它变成:
Number Individual Year Value
435 M. Smith 2011 346
254 J. Jones 2013 453
Run Code Online (Sandbox Code Playgroud)
谢谢你。
能够在 Mac 上无缝地设置从 S3 存储桶的拉取,但在 PC (Windows) 上执行相同的过程却遇到了困难。这就是我所做的——在此过程中任何帮助将不胜感激。
awscli使用pipaws configure在命令提示符下运行并输入正确的访问密钥 ID 和秘密访问密钥。G:\>aws s3 cp --recursive s3://url-index-given/ .其中 url 被替换为)。url-index-given并得到这个错误:
fatal error: Could not connect to the endpoint URL: "https://url-index-given.s3.None.amazonaws.com/?list-type=2&prefix=&encoding-type=url"
我尝试卸载该awscli软件包并按照亚马逊推荐的流程进行操作,没有出现任何错误。
我找不到这个问题的完整答案.我试图解决类似的方程系统:
r_Aus <- 8.7 + r_Fra + r_Ser + r_USA
r_Fra <- 2.7 + r_Aus + r_Chi + r_Ser
r_USA <- 37 + r_Chi + r_Ven + r_Aus
r_Chi <- -29.7 + r_USA + r_Fra + r_Ven
r_Ser <- 2.7 + r_Ven + r_Aus + r_Fra
r_Ven <- -21.3 + r_Ser + r_USA + r_Chi
Run Code Online (Sandbox Code Playgroud)
我怎么能解决每个国家的变量?
我有像这样格式化日期的数据:
Tue Oct 25 2016
Tue Oct 25 2016
Tue Oct 25 2016
Wed Oct 26 2016
Wed Oct 26 2016
Wed Oct 26 2016
Run Code Online (Sandbox Code Playgroud)
我希望这是一种R可以将其用作日期(即2016-10-25)的格式.有帮助吗?
r ×5
pandas ×3
python ×3
date ×2
amazon-s3 ×1
apache-spark ×1
databricks ×1
dataframe ×1
group-by ×1
heatmap ×1
indexing ×1
matplotlib ×1
merge ×1
pyspark ×1