小编Fir*_*ast的帖子

将R ggplot中的直方图中的y轴归一化为比例

我有一个非常简单的问题,让我把头撞在墙上.

我想缩放直方图的y轴以反映每个bin组成的比例(0到1),而不是将条的面积总和为1,因为使用y = .. density ...或者最高的条形为1,因为y = .. ncount ..的确如此.

我的输入是名称和值的列表,格式如下:

name    value
A   0.0000354
B   0.00768
C   0.00309
D   0.000123
Run Code Online (Sandbox Code Playgroud)

我失败的尝试之一:

library(ggplot2)
mydataframe < read.delim(mydata)
ggplot(mydataframe, aes(x = value)) +
geom_histogram(aes(x=value,y=..density..))
Run Code Online (Sandbox Code Playgroud)

这给了我一个区域为1的直方图,但是高度为2000和1000:

尝试

和y = .. ncount ..给我一个最高条1.0的直方图,其余的缩放到它:

尝试

但我希望第一个条的高度为0.5,另外两个为0.25.

R也不承认scale_y_continuous的这些用法.

scale_y_continuous(formatter="percent")
scale_y_continuous(labels = percent)
scale_y_continuous(expand=c(1/(nrow(mydataframe)-1),0)
Run Code Online (Sandbox Code Playgroud)

感谢您的任何帮助.

plot r histogram ggplot2

46
推荐指数
3
解决办法
5万
查看次数

使用python过滤大文件,使用另一个的内容

我有一个~1GB的数据条目文本文件和另一个我想用来过滤它们的名字列表.遍历每个条目的每个名称将非常慢.在python中执行此操作的最有效方法是什么?如果名称嵌入在条目中,是否可以使用哈希表?我可以使用名称部分始终放置的事实吗?

示例文件:

条目文件 - 条目的每个部分由选项卡分隔,直到名称

246   lalala   name="Jack";surname="Smith"
1357   dedada   name="Mary";surname="White"
123456  lala   name="Dan";surname="Brown"
555555   lalala   name="Jack";surname="Joe"
Run Code Online (Sandbox Code Playgroud)

命名文件 - 每个都在换行符上

Jack
Dan
Ryan
Run Code Online (Sandbox Code Playgroud)

期望的输出 - 仅在名称文件中具有名称的条目

246   lalala   name="Jack";surname="Smith"
123456  lala   name="Dan";surname="Brown"
555555   lalala   name="Jack";surname="Joe"
Run Code Online (Sandbox Code Playgroud)

python optimization compare filter

1
推荐指数
1
解决办法
1297
查看次数

标签 统计

compare ×1

filter ×1

ggplot2 ×1

histogram ×1

optimization ×1

plot ×1

python ×1

r ×1