我有一个非常简单的问题,让我把头撞在墙上.
我想缩放直方图的y轴以反映每个bin组成的比例(0到1),而不是将条的面积总和为1,因为使用y = .. density ...或者最高的条形为1,因为y = .. ncount ..的确如此.
我的输入是名称和值的列表,格式如下:
name value
A 0.0000354
B 0.00768
C 0.00309
D 0.000123
Run Code Online (Sandbox Code Playgroud)
我失败的尝试之一:
library(ggplot2)
mydataframe < read.delim(mydata)
ggplot(mydataframe, aes(x = value)) +
geom_histogram(aes(x=value,y=..density..))
Run Code Online (Sandbox Code Playgroud)
这给了我一个区域为1的直方图,但是高度为2000和1000:
和y = .. ncount ..给我一个最高条1.0的直方图,其余的缩放到它:
但我希望第一个条的高度为0.5,另外两个为0.25.
R也不承认scale_y_continuous的这些用法.
scale_y_continuous(formatter="percent")
scale_y_continuous(labels = percent)
scale_y_continuous(expand=c(1/(nrow(mydataframe)-1),0)
Run Code Online (Sandbox Code Playgroud)
感谢您的任何帮助.
我有一个~1GB的数据条目文本文件和另一个我想用来过滤它们的名字列表.遍历每个条目的每个名称将非常慢.在python中执行此操作的最有效方法是什么?如果名称嵌入在条目中,是否可以使用哈希表?我可以使用名称部分始终放置的事实吗?
示例文件:
条目文件 - 条目的每个部分由选项卡分隔,直到名称
246 lalala name="Jack";surname="Smith"
1357 dedada name="Mary";surname="White"
123456 lala name="Dan";surname="Brown"
555555 lalala name="Jack";surname="Joe"
Run Code Online (Sandbox Code Playgroud)
命名文件 - 每个都在换行符上
Jack
Dan
Ryan
Run Code Online (Sandbox Code Playgroud)
期望的输出 - 仅在名称文件中具有名称的条目
246 lalala name="Jack";surname="Smith"
123456 lala name="Dan";surname="Brown"
555555 lalala name="Jack";surname="Joe"
Run Code Online (Sandbox Code Playgroud)