小编a.p*_*ell的帖子

从R中的日期中提取月份和年份

我尝试过多种方法无济于事.我有一个日期(YYYY-MM-DD)的数据,我试图得到的只是月份和年份,例如:MM-YYYY或YYYY-MM.

最终,我希望它看起来像这样:

ID    Date         Month_Yr
1     2004-02-06   2004-02
2     2006-03-14   2006-03
3     2007-07-16   2007-07
...   ...          ...
Run Code Online (Sandbox Code Playgroud)

我这样做的目的是希望在一段时间内从一些订单中平均赚取一个月赚来的钱.任何帮助,或推动正确的方向将非常感激.

r date

41
推荐指数
4
解决办法
9万
查看次数

在R中合并2个变量的数据

我试图合并两个数据集.在过去,我已经使用merge()具有by等于我要合并的变量.但是,现在我想用两个变量来做.我的第一个数据集看起来像这样:

Year   Winning_Tm    Losing_Tm
2011   Texas         Washington
2012   Alabama       South Carolina
2013   Tennessee     Texas
Run Code Online (Sandbox Code Playgroud)

然后我有另一个数据集,每个团队的每个团队的排名(这是非常简化的).像这样:

Year    Team             Rank
2011    Texas            32
2011    Washington       34
2012    South Carolina   45
2012    Alabama          12
2013    Texas            6
2013    Tennessee        51
Run Code Online (Sandbox Code Playgroud)

我想合并它们,所以我有一个如下所示的数据集:

Year   Winning_Tm    Winning_TM_rank    Losing_Tm        Losing_Tm_rank
2011   Texas         32                 Washington       34
2012   Alabama       12                 South Carolina   45
2013   Tennessee     51                 Texas            6
Run Code Online (Sandbox Code Playgroud)

我希望有一种简单的方法可以做到这一点但它可能更复杂.谢谢!

merge r

6
推荐指数
1
解决办法
2183
查看次数

如果位于 Pandas 字符串末尾,则删除某些字符

我有一个名称列表,其中我已将其全部大写,删除了空格和非字母字符,以便更轻松地与另一个列表合并 - 两者都在 pandas 数据框中。

其中一个数据帧的名称JR末尾附加了一些名称,而另一个数据帧中的对应名称不包含此后缀。我怎样才能JR从两者中全部剥离?

我尝试了类似以下的操作:

df['NAME'] = df['NAME'].str.replace('JR','')

但我认为这会删除所有实例JR,而不是当它是最后两个字符时。任何帮助,将不胜感激。

python pandas

5
推荐指数
1
解决办法
6002
查看次数

带有 X、Y 数据的 Matplotlib 热图

我想matplotlib使用其中一个pcolor或另一个热图库制作热图。我找到了很多很好的例子,但无法确定如何以正确的格式获取我的数据,或者使用我的数据格式进行绘图。

这是我的数据的设置方式

X  Y  Value
0  1  .6
0  2  .3
0  3  .2
1  1  .8
1  2  .4
1  3  .9
Run Code Online (Sandbox Code Playgroud)

因此,XY列表示(X,Y)对,其中Value是相应单元格的值。我正在努力寻找一种方法来转换数据以使用pcolor或另一种绘图方法。任何帮助,将不胜感激。

python matplotlib heatmap pandas

4
推荐指数
1
解决办法
1万
查看次数

通过列号熊猫选择不相邻的列

我还没有找到答案。我正在尝试选择列号286:100。显然,我宁愿不按标签选择它们。

凭直觉,我尝试过:df_new = df.iloc[:,[2,86:100]]无济于事。

选择这些列的最有效方法是什么?

python indexing pandas

3
推荐指数
1
解决办法
955
查看次数

PySpark 等待笔记本中完成 (Databricks)

目前,我在一个单元格中使用 Spark 数据帧(自动加载器)时遇到一些问题,可能需要一些时间才能写入数据。然后,在下面的单元格中,代码引用第一个表完成的工作。但是,如果由于 Spark 的分布式特性而运行整个笔记本(特别是作为作业),则第二个单元会在第一个单元完全完成之前运行。如何让第二个单元等待 writeStream 完成,而不将它们放在单独的笔记本中。

例子:

小区1

autoload = pysparkDF.writeStream.format('delta')....table('TABLE1')
Run Code Online (Sandbox Code Playgroud)

细胞2

df = spark.sql('select count(*) from TABLE1')
Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark databricks spark-structured-streaming

3
推荐指数
1
解决办法
3939
查看次数

R 中的聚合/Group_by 第二个最小值

我已经使用group_by()indplyraggregate()函数在R. 对于我目前的问题,我想按个人分组,但要找到一列(数字)的第二低和另一列(年份)的最低。所以,如果我的数据是这样的:

Number     Individual     Year     Value
123        M. Smith       2010     234
435        M. Smith       2011     346
435        M. Smith       2012     356
524        M. Smith       2015     432
119        J. Jones       2010     345
119        J. Jones       2012     432
254        J. Jones       2013     453
876        J. Jones       2014     654
Run Code Online (Sandbox Code Playgroud)

我希望它变成:

Number     Individual     Year     Value
435        M. Smith       2011     346
254        J. Jones       2013     453
Run Code Online (Sandbox Code Playgroud)

谢谢你。

group-by r dataframe

2
推荐指数
1
解决办法
881
查看次数

AWS CLI:无法连接到终端节点 URL

能够在 Mac 上无缝地设置从 S3 存储桶的拉取,但在 PC (Windows) 上执行相同的过程却遇到了困难。这就是我所做的——在此过程中任何帮助将不胜感激。

  1. 安装awscli使用pip
  2. aws configure在命令提示符下运行并输入正确的访问密钥 ID 和秘密访问密钥。
  3. 运行 s3 代码:(出于示例目的,G:\>aws s3 cp --recursive s3://url-index-given/ .其中 url 被替换为)。url-index-given

并得到这个错误: fatal error: Could not connect to the endpoint URL: "https://url-index-given.s3.None.amazonaws.com/?list-type=2&prefix=&encoding-type=url"

我尝试卸载该awscli软件包并按照亚马逊推荐的流程进行操作,没有出现任何错误。

amazon-s3 amazon-web-services

2
推荐指数
1
解决办法
2万
查看次数

我该如何解决这个线性方程组?

我找不到这个问题的完整答案.我试图解决类似的方程系统:

r_Aus <- 8.7 + r_Fra + r_Ser + r_USA
r_Fra <- 2.7 + r_Aus + r_Chi + r_Ser
r_USA <- 37 + r_Chi + r_Ven + r_Aus
r_Chi <- -29.7 + r_USA + r_Fra + r_Ven
r_Ser <- 2.7 + r_Ven + r_Aus + r_Fra
r_Ven <- -21.3 + r_Ser + r_USA + r_Chi
Run Code Online (Sandbox Code Playgroud)

我怎么能解决每个国家的变量?

r

0
推荐指数
1
解决办法
573
查看次数

在R中转换文本日期

我有像这样格式化日期的数据:

Tue Oct 25 2016
Tue Oct 25 2016
Tue Oct 25 2016
Wed Oct 26 2016
Wed Oct 26 2016
Wed Oct 26 2016
Run Code Online (Sandbox Code Playgroud)

我希望这是一种R可以将其用作日期(即2016-10-25)的格式.有帮助吗?

r date

0
推荐指数
1
解决办法
133
查看次数