小编mto*_*oto的帖子

通过简单拟合预测 x 值并在图中进行注释

我有一个非常简单的问题，但到目前为止找不到简单的解决方案。假设我有一些数据想要拟合并显示其 x 轴值，其中 y 是特定值。在这种情况下，假设当 y=0 时 x 值是多少。模型非常简单 y~x 用于拟合，但我不知道如何从那里估计 x 值。反正，

样本数据

library(ggplot2)
library(scales)
df = data.frame(x= sort(10^runif(8,-6,1),decreasing=TRUE), y = seq(-4,4,length.out = 8))

ggplot(df, aes(x = x, y = y)) +
  geom_point() +
  #geom_smooth(method = "lm", formula = y ~ x, size = 1,linetype="dashed",  col="black",se=FALSE, fullrange = TRUE)+
  geom_smooth(se=FALSE)+
  labs(title = "Made-up data") + 
  scale_x_log10(breaks =  c(1e-6,1e-4,1e-2,1),
                labels = trans_format("log10", math_format(10^.x)),limits = c(1e-6,1))+
  geom_hline(yintercept=0,linetype="dashed",colour="red",size=0.6)

Run Code Online (Sandbox Code Playgroud)

我想将 1e-10 输入转换为 10^-10 格式并在绘图上对其进行注释。正如我在情节中指出的那样。

提前致谢！

r ggplot2 lm

Ale*_*der

2016 05-26

3
推荐指数

1
解决办法

3879
查看次数

如何通过key或filter()使用两个RDD的spark intersection()？

我想用intersection()钥匙或filter()火花来使用.

但我真的不知道如何使用intersection()密钥.

所以我尝试使用filter(),但它没有用.

示例 - 这是两个RDD:

data1 //RDD[(String, Int)] = Array(("a", 1), ("a", 2), ("b", 2), ("b", 3), ("c", 1))
data2 //RDD[(String, Int)] = Array(("a", 3), ("b", 5))

val data3 = data2.map{_._1}

data1.filter{_._1 == data3}.collect //Array[(String, Int] = Array()

Run Code Online (Sandbox Code Playgroud)

我希望得到一个(key,value)对,其密钥与data1基于密钥的密钥相同data2.

Array(("a", 1), ("a", 2), ("b", 2), ("b", 3)) 是我想要的结果.

是否有一种方法来解决这个问题使用intersection()键或filter()？

scala intersection filter apache-spark rdd

S.K*_*ang

2017 02-19

3
推荐指数

1
解决办法

9031
查看次数

计算R中多列的百分位数

我需要计算100个变量的排除概率值0.05,0.25,0.50,0.75,0.90,0.95,0.99,1的分位数,不包括时间

数据结构如下

数据集名称-DF

time Var1 var2 var3.....var100

 1    100   230  378......300

 2    200  145  129......240

 3    150  235  200 .... 690

Run Code Online (Sandbox Code Playgroud)

我使用以下逻辑.

percentiles <- do.call("rbind",tapply(df[2:100],quantile,probs=c(0,0.05,0.25,0.50,0.75,0.90,0.95,0.99,1),na.rm=TRUE))

Run Code Online (Sandbox Code Playgroud)

由于这仅在向量上运行,因此很难调用所有100个变量.

bna*_*air

2016 03-10

2
推荐指数

1
解决办法

5215
查看次数

如何在r中将一列数除以一列

我有以下数据集:我在r中执行以下操作:

Monday Tuesday Wednesday Friday Saturday Total
2       3      4          5      6        20
3       6      7          5      1        22

Run Code Online (Sandbox Code Playgroud)

我需要分为2/20,3/2,4/20,5/20,6/20和第二行,3/22,6/22,7/22,5/22,1/22.我可以通过提取列来实现这一点,但这很长很乏味,请一定要有一个更简单的方法

r divide

pap*_*loo

2017 12-20

2
推荐指数

2
解决办法

3224
查看次数

如何将列重命名为今天的日期？

我想将列重命名为今天的日期:

我用以下语法尝试了基本函数Sys.Date()和dplyr pkg:

library(dplyr)
df2 <- df1 %>% select(Column 1, Column 2) %>% rename(toString(Sys.Date())= 'Old Column Name')

Run Code Online (Sandbox Code Playgroud)

不行.任何的想法？

r rename dataframe dplyr

Pat*_*k_P

2016 02-18

1
推荐指数

2
解决办法

532
查看次数

在Spark RDD中查找最大值

从下面的内容中,我如何获得具有最高价值的元组？

Array[(String, Int)] = Array((a,30),(b,50),(c,20))

Run Code Online (Sandbox Code Playgroud)

在这个例子中,我想要的结果是 (b,50)

scala apache-spark

Zer*_*rty

2017 05-18

1
推荐指数

1
解决办法

7297
查看次数

根据每个类别出现的百分比，将分类变量随机添加到 r 中的数据框中

我正在尝试模拟下面显示的一些数据，以便在 r 中进行分析，我需要添加一个具有“借方和贷方”类别的列，这样在最终数据集中我将有“76%”借方和“24%”贷方。

cust_id trxn_date   trxn_id trxn_amt
1001    25-Jun-14   303703  373
1001    13-Jun-14   283268  143
1001    14-May-14   233493  580
1001    3-Apr-14    164596  155
1001    24-Mar-14   147658  651
1001    22-Mar-14   144280  229
1001    14-Mar-14   130655  100
1001    11-Mar-14   125599  170
1001    9-Mar-14    122245  674
1001    1-Mar-14    108788  223
1001    21-Feb-14   95177   68
1001    16-Feb-14   86754   689
1001    26-Jan-14   51920   141


cust_id trxn_date   trxn_id trxn_amt Trxn_type
1001    25-Jun-14   303703  373      Debit
1001    13-Jun-14   283268  143      Debit
1001    14-May-14   233493  580      Debit
1001 …

Run Code Online (Sandbox Code Playgroud)

r categorical-data

Dan*_*nte

2016 03-09

0
推荐指数

1
解决办法

696
查看次数

如何在 R 中查找面板数据集中的第一次和最后一次出现

我有一张桌子：

Run Code Online (Sandbox Code Playgroud)

我想将其转换为：

id  first last
1      1     5
2      3     7
3      8    14

Run Code Online (Sandbox Code Playgroud)

请帮忙！

Pre*_*deo

2016 04-04

0
推荐指数

1
解决办法

1665
查看次数

标签统计

r ×6

apache-spark ×2

scala ×2

categorical-data ×1

dataframe ×1

divide ×1

dplyr ×1

filter ×1

ggplot2 ×1

intersection ×1

lm ×1

rdd ×1

rename ×1

标签 统计

小编mto_oto的帖子

标签统计