小编mto*_*oto的帖子

通过简单拟合预测 x 值并在图中进行注释

我有一个非常简单的问题,但到目前为止找不到简单的解决方案。假设我有一些数据想要拟合并显示其 x 轴值,其中 y 是特定值。在这种情况下,假设当 y=0 时 x 值是多少。模型非常简单 y~x 用于拟合,但我不知道如何从那里估计 x 值。反正,

样本数据

library(ggplot2)
library(scales)
df = data.frame(x= sort(10^runif(8,-6,1),decreasing=TRUE), y = seq(-4,4,length.out = 8))

ggplot(df, aes(x = x, y = y)) +
  geom_point() +
  #geom_smooth(method = "lm", formula = y ~ x, size = 1,linetype="dashed",  col="black",se=FALSE, fullrange = TRUE)+
  geom_smooth(se=FALSE)+
  labs(title = "Made-up data") + 
  scale_x_log10(breaks =  c(1e-6,1e-4,1e-2,1),
                labels = trans_format("log10", math_format(10^.x)),limits = c(1e-6,1))+
  geom_hline(yintercept=0,linetype="dashed",colour="red",size=0.6)
Run Code Online (Sandbox Code Playgroud)

我想将 1e-10 输入转换为 10^-10 格式并在绘图上对其进行注释。正如我在情节中指出的那样。

提前致谢!

在此输入图像描述

r ggplot2 lm

3
推荐指数
1
解决办法
3879
查看次数

如何通过key或filter()使用两个RDD的spark intersection()?

我想用intersection()钥匙或filter()火花来使用.

但我真的不知道如何使用intersection()密钥.

所以我尝试使用filter(),但它没有用.

示例 - 这是两个RDD:

data1 //RDD[(String, Int)] = Array(("a", 1), ("a", 2), ("b", 2), ("b", 3), ("c", 1))
data2 //RDD[(String, Int)] = Array(("a", 3), ("b", 5))

val data3 = data2.map{_._1}

data1.filter{_._1 == data3}.collect //Array[(String, Int] = Array()
Run Code Online (Sandbox Code Playgroud)

我希望得到一个(key,value)对,其密钥与data1基于密钥的密钥相同data2.

Array(("a", 1), ("a", 2), ("b", 2), ("b", 3)) 是我想要的结果.

是否有一种方法来解决这个问题使用intersection()键或filter()

scala intersection filter apache-spark rdd

3
推荐指数
1
解决办法
9031
查看次数

计算R中多列的百分位数

我需要计算100个变量的排除概率值0.05,0.25,0.50,0.75,0.90,0.95,0.99,1的分位数,不包括时间

数据结构如下

数据集名称-DF

time Var1 var2 var3.....var100

 1    100   230  378......300

 2    200  145  129......240

 3    150  235  200 .... 690
Run Code Online (Sandbox Code Playgroud)

我使用以下逻辑.

percentiles <- do.call("rbind",tapply(df[2:100],quantile,probs=c(0,0.05,0.25,0.50,0.75,0.90,0.95,0.99,1),na.rm=TRUE))
Run Code Online (Sandbox Code Playgroud)

由于这仅在向量上运行,因此很难调用所有100个变量.

r

2
推荐指数
1
解决办法
5215
查看次数

如何在r中将一列数除以一列

我有以下数据集:我在r中执行以下操作:

Monday Tuesday Wednesday Friday Saturday Total
2       3      4          5      6        20
3       6      7          5      1        22
Run Code Online (Sandbox Code Playgroud)

我需要分为2/20,3/2,4/20,5/20,6/20和第二行,3/22,6/22,7/22,5/22,1/22.我可以通过提取列来实现这一点,但这很长很乏味,请一定要有一个更简单的方法

r divide

2
推荐指数
2
解决办法
3224
查看次数

如何将列重命名为今天的日期?

我想将列重命名为今天的日期:

我用以下语法尝试了基本函数Sys.Date()和dplyr pkg:

library(dplyr)
df2 <- df1 %>% select(Column 1, Column 2) %>% rename(toString(Sys.Date())= 'Old Column Name')
Run Code Online (Sandbox Code Playgroud)

不行.任何的想法?

r rename dataframe dplyr

1
推荐指数
2
解决办法
532
查看次数

在Spark RDD中查找最大值

从下面的内容中,我如何获得具有最高价值的元组?

Array[(String, Int)] = Array((a,30),(b,50),(c,20))
Run Code Online (Sandbox Code Playgroud)

在这个例子中,我想要的结果是 (b,50)

scala apache-spark

1
推荐指数
1
解决办法
7297
查看次数

根据每个类别出现的百分比,将分类变量随机添加到 r 中的数据框中

我正在尝试模拟下面显示的一些数据,以便在 r 中进行分析,我需要添加一个具有“借方和贷方”类别的列,这样在最终数据集中我将有“76%”借方和“24%”贷方。

cust_id trxn_date   trxn_id trxn_amt
1001    25-Jun-14   303703  373
1001    13-Jun-14   283268  143
1001    14-May-14   233493  580
1001    3-Apr-14    164596  155
1001    24-Mar-14   147658  651
1001    22-Mar-14   144280  229
1001    14-Mar-14   130655  100
1001    11-Mar-14   125599  170
1001    9-Mar-14    122245  674
1001    1-Mar-14    108788  223
1001    21-Feb-14   95177   68
1001    16-Feb-14   86754   689
1001    26-Jan-14   51920   141


cust_id trxn_date   trxn_id trxn_amt Trxn_type
1001    25-Jun-14   303703  373      Debit
1001    13-Jun-14   283268  143      Debit
1001    14-May-14   233493  580      Debit
1001 …
Run Code Online (Sandbox Code Playgroud)

r categorical-data

0
推荐指数
1
解决办法
696
查看次数

如何在 R 中查找面板数据集中的第一次和最后一次出现

我有一张桌子:

id  time
1   1
1   2
1   5
2   3
2   2
2   7
3   8
3   3
3   14
Run Code Online (Sandbox Code Playgroud)

我想将其转换为:

id  first last
1      1     5
2      3     7
3      8    14
Run Code Online (Sandbox Code Playgroud)

请帮忙!

r

0
推荐指数
1
解决办法
1665
查看次数