我正在使用ggplot来显示数据的百分位数.我使用以下代码,
data <- seq(from=0,to=30,length.out=1000)
q <- quantile(data)
ggplot()+
geom_density(aes(x=data)) +
annotate(geom="text", x=q, y=0, label=names(q)) +
theme(text = element_text(size=10)) +
geom_vline(x=q, linetype = "longdash")
Run Code Online (Sandbox Code Playgroud)
以下是我得到的图表,
我希望为每个细分填充不同的颜色.即一种颜色为0-25%,另一种颜色为25-50%.有可能吗?
垂直线也贯穿整个图形.我想阻止它直到曲线.而不是完全贯穿它.
谁能帮助我做这两件事?
以下是我的数据
> x
day sum
1 2015-04-14 129
2 2015-04-15 129
3 2015-04-16 129
4 2015-04-17 899
5 2015-04-18 899
6 2015-04-19 899
7 2015-04-20 899
8 2015-04-21 899
9 2015-04-22 899
10 2015-04-23 899
11 2015-04-24 899
12 2015-04-25 899
13 2015-04-26 899
14 2015-04-27 899
15 2015-04-28 899
16 2015-04-29 899
17 2015-04-30 899
18 2015-05-01 899
19 2015-05-02 899
20 2015-05-03 899
21 2015-05-04 899
22 2015-05-05 899
23 2015-05-06 899
24 2015-05-07 899
25 2015-05-08 899 …Run Code Online (Sandbox Code Playgroud) 我使用用户ID密钥加入具有相同列/列名称的两个数据帧(a,b),并且在加入时,我必须提供后缀字符,以便创建它.以下是我使用的命令,
a.join(b,how='inner', on='userId',lsuffix="_1")
Run Code Online (Sandbox Code Playgroud)
如果我不使用这个后缀,我会收到错误.但我不希望列名更改,因为这会导致运行其他分析时出现问题.所以我想从结果数据帧的所有列名中删除这个"_1"字符.任何人都可以建议我删除Pandas数据帧中所有列的最后两个字符的有效方法吗?
谢谢
我想在 Hive 中的表达式中解析出负十进制值,并且我编写了以下正则表达式,
select regexp_extract("abcsdfghj-117.3700631&poikse-118.244&",
'([-][1-9][0-9]*[.][0-9]+)&*') as output
Run Code Online (Sandbox Code Playgroud)
虽然正则表达式似乎运行良好,但它只给了我第一个匹配项。是否有可能让 hive 给出所有可能的组合?hive 中是否有任何函数可以返回所有匹配项?
我做了谷歌这个,我无法找到任何答案。任何帮助,将不胜感激
谢谢