小编lok*_*art的帖子

创建使用R显示案例计数的树图

我需要创建一个"树图"式图表来显示不同场景的案例数量,如下所示:

图片引自:

Pediatrics. 2005 Dec;116(6):1317-22.
Electronic surveillance system for monitoring surgical antimicrobial prophylaxis.
Voit SB, Todd JK, Nelson B, Nyquist AC.

Run Code Online (Sandbox Code Playgroud)

我可以使用table命令轻松地从R中获取数字,但这不是一个非常好的方式来呈现它.

图表可以没有任何花哨的颜色或东西,我只想使用格式来显示数字.有什么建议？

r data-visualization

lok*_*art

2012 02-20

12
推荐指数

3
解决办法

1万
查看次数

使用python pandas中数据框中的选定列为每行数据创建哈希值

我在R中提出了类似的问题,即为每行数据创建哈希值.我知道我可以使用类似hashlib.md5(b'Hello World').hexdigest()哈希字符串的东西,但数据帧中的行怎么样？

更新01

我已经起草了如下代码:

for index, row in course_staff_df.iterrows():
        temp_df.loc[index,'hash'] = hashlib.md5(str(row[['cola','colb']].values)).hexdigest()

Run Code Online (Sandbox Code Playgroud)

对我来说这似乎不是很pythonic,任何更好的解决方案？

python hash pandas

lok*_*art

2017 05-23

11
推荐指数

3
解决办法

1万
查看次数

使用R中的spplot在图形上绘制多个shp文件

我有3个shp文件,分别代表房子,房间和房子的床.我需要使用R在图表上绘制它们,以便它们彼此重叠.我知道在plot功能上,我可以使用line在现有情节的顶部绘制新线,是否有相应的东西spplot？谢谢.

gis plot r ggplot2

lok*_*art

2012 04-04

10
推荐指数

2
解决办法

8186
查看次数

R中的"加权"回归

我创建了一个类似下面的脚本来做我称之为"加权"回归的事情:

library(plyr)

set.seed(100)

temp.df <- data.frame(uid=1:200,
                      bp=sample(x=c(100:200),size=200,replace=TRUE),
                      age=sample(x=c(30:65),size=200,replace=TRUE),
                      weight=sample(c(1:10),size=200,replace=TRUE),
                      stringsAsFactors=FALSE)

temp.df.expand <- ddply(temp.df,
                        c("uid"),
                        function(df) {
                          data.frame(bp=rep(df[,"bp"],df[,"weight"]),
                                     age=rep(df[,"age"],df[,"weight"]),
                                     stringsAsFactors=FALSE)})

temp.df.lm <- lm(bp~age,data=temp.df,weights=weight)
temp.df.expand.lm <- lm(bp~age,data=temp.df.expand)

Run Code Online (Sandbox Code Playgroud)

你可以看到,在temp.df,每一行都有它的重量,我的意思是,共有1178样本,但对于相同的行为bp及age,它们是合并成1行的代表weight列.

我使用了weight函数中的参数lm,然后用另一个数据帧交叉检查结果,数据temp.df帧是"扩展"的.但我发现lm2个数据帧的输出不同.

我是否误解了weight函数中的参数lm,并且任何人都可以告诉我如何正确运行回归(即不手动扩展数据帧)以获得类似的数据集temp.df吗？谢谢.

r linear-regression weighted

lok*_*art

lucky-day

10
推荐指数

1
解决办法

9495
查看次数

如何使用RSqlite将CSV导入sqlite？

作为问题,我发现我可以.import在sqlite shell中使用,但似乎它不适用于R环境,有什么建议吗？

sqlite import r

lok*_*art

2017 09-01

9
推荐指数

1
解决办法

1万
查看次数

为 ggplot2 中的每个图例分配不同的背景颜色

此页面显示如何ggplot使用该guide_legend功能操作订单、标题颜色等多个图例。我想知道是否可以单独修改每个图例的背景颜色。谢谢！

ggplot(mpg, aes(displ, cty)) +
  # I tired to use legend.background and a list of colors in fill to individually change the color, but is it not working
  theme(legend.background=element_rect(fill=c('brown','grey','whie'))) +
  geom_point(aes(size = hwy, colour = cyl, shape = drv)) +
  guides(
    colour = guide_colourbar(order = 1),
    # title.theme allows individual adjustment of title color, I wonder if similar can be done for legend background color
    shape = guide_legend(order = 2,title.theme = element_text(color='green')),
    size = …

Run Code Online (Sandbox Code Playgroud)

r legend background-color ggplot2

lok*_*art

lucky-day

9
推荐指数

1
解决办法

371
查看次数

如何制作"漂亮的四舍五入"？

我需要像这样进行舍入并将其转换为字符:

as.character(round(5.9999,2))

Run Code Online (Sandbox Code Playgroud)

我希望它成为6.00,但它只是给了我6

无论如何,我可以让它显示出来6.00吗？

r rounding

lok*_*art

2016 10-03

8
推荐指数

1
解决办法

1590
查看次数

R和Stata之间的合并命令比较

作为R用户,我现在正在使用这个资源学习Stata ,并且对这个merge命令感到困惑.

在R中,我不必担心错误地合并数据,因为它无论如何都会合并所有内容.如果公共列包含任何重复项,我不需要担心,因为Y数据帧将合并到dataframe中的每个重复行X.(使用all=FALSE中merge)

但是对于Stata,我需要X在继续合并之前删除重复的行.

是否在Stata中假设,为了merge继续,主表中的公共列必须是唯一的？

merge r stata

lok*_*art

2013 06-30

8
推荐指数

1
解决办法

1637
查看次数

在计算由Pandas创建的数据帧中的列的平均值时指定"跳过NA"

我正在Pandas通过复制一些R小插曲的郊游来学习包装.现在我使用dplyrR中的包作为示例:

http://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html

R脚本

planes <- group_by(hflights_df, TailNum)
delay <- summarise(planes,
  count = n(),
  dist = mean(Distance, na.rm = TRUE))
delay <- filter(delay, count > 20, dist < 2000)

Run Code Online (Sandbox Code Playgroud)

Python脚本

planes = hflights.groupby('TailNum')
planes['Distance'].agg({'count' : 'count',
                        'dist' : 'mean'})

Run Code Online (Sandbox Code Playgroud)

如何在python中明确声明NA需要跳过？

python r pandas na

lok*_*art

lucky-day

8
推荐指数

2
解决办法

3万
查看次数

使用 Pandas 读取下载的 html 文件

作为标题，我尝试使用read_html但给我以下错误：

In [17]:temp = pd.read_html('C:/age0.html',flavor='lxml')
  File "<string>", line unknown
XMLSyntaxError: htmlParseStartTag: misplaced <html> tag, line 65, column 6

Run Code Online (Sandbox Code Playgroud)

我做错了什么？