小编Pet*_* H.的帖子

在 RStudio 中,如何像在控制台中一样以 quarto/rmarkdown 块打印 tibble?

编辑 quarto/rmarkdown 文档时,我希望 RStudio 以与控制台中相同的方式显示内联标题,而不是分页的默认打印。

\n

而不是这个:

\n

RStudio IDE 中小标题的默认打印

\n

我更喜欢控制台的输出:

\n
# A tibble: 150 \xc3\x97 5\n   Sepal.Length Sepal.Width Petal.Length Petal.Width Species\n          <dbl>       <dbl>        <dbl>       <dbl> <fct>  \n 1          5.1         3.5          1.4         0.2 setosa \n 2          4.9         3            1.4         0.2 setosa \n 3          4.7         3.2          1.3         0.2 setosa \n 4          4.6         3.1          1.5         0.2 setosa \n 5          5           3.6          1.4         0.2 setosa \n 6          5.4         3.9          1.7         0.4 setosa \n 7          4.6         3.4          1.4         0.3 setosa \n 8          5           3.4 …
Run Code Online (Sandbox Code Playgroud)

r rstudio r-markdown tibble quarto

6
推荐指数
1
解决办法
1479
查看次数

如何使用 pandas 基于两个分类列的组合进行 one-hot 编码?

我正在尝试用 pandas 进行一些一次性编码。输入数据如下所示:

import pandas as pd

# input data
df = pd.DataFrame({
    "pid"  : [1, 1, 2, 3],
    "code" : ["a", "b", "b", "c"],
    "time" : [0, 0, 1, 0]
})

# two of the columns are categories
df["code"] = df.code.astype("category")
df["time"] = df.time.astype("category")
Run Code Online (Sandbox Code Playgroud)

我想对列的组合进行 one-hot 编码code,并time以一种方式生成 6 列,对应于每列中类别的所有组合。在这个小示例中,将是 a_0、a_1、b_0、b_1、c_0 和 c_1。

# i've tried doing this:
df["code_time"] = df.code.astype("str") + df.time.astype("str")
del df["code"]
del df["time"]
pd.get_dummies(df, columns=["code_time"])
Run Code Online (Sandbox Code Playgroud)

但这不会给我 a_1 和 c_1 组合,因为它们没有出现在数据中。有没有简单的方法来产生我想要的输出:

df_out = …
Run Code Online (Sandbox Code Playgroud)

python dataframe pandas

5
推荐指数
1
解决办法
1428
查看次数

每次列值更改时,如何使用 `dplyr` 创建一个新组?

我有一个检测事件数据框,其中的列提供个人的标签 ID (Tag)、检测开始时间 (StartDateTime_UTC)、检测结束时间 (EndDateTime_UTC) 和位置。

我想为每个标签汇总和总结这个数据框,每次位置发生变化时。对于每个标签和每个更改,我想采用 min(StartDateTime_UTC) 和 max(EndDateTime_UTC)。不幸的是,每个更改都没有固定数量的记录,因此简单的滚动摘要不起作用。

如果这会有所不同,则有 3 个可能的位置“IN”、“OUT”、“OVERLAP”

如果可能,我更喜欢使用包 dplyr 的解决方案。

对于下面提供的数据,输出将如下所示:

      Tag   StartDateTime_UTC     EndDateTime_UTC location
1 5004.24 2014-10-15 15:26:16 2014-10-17 07:12:19       IN
2 5004.24 2014-10-17 07:15:43 2014-10-21 02:12:29      OUT
Run Code Online (Sandbox Code Playgroud)

示例数据:

structure(list(Tag = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, …
Run Code Online (Sandbox Code Playgroud)

grouping aggregate r dplyr

2
推荐指数
1
解决办法
101
查看次数

标签 统计

r ×2

aggregate ×1

dataframe ×1

dplyr ×1

grouping ×1

pandas ×1

python ×1

quarto ×1

r-markdown ×1

rstudio ×1

tibble ×1