小编Sas*_*sha的帖子

我正在构建一个闪亮的应用程序,需要允许用户定义用于绘图的新变量.具体来说,我想允许用户定义一个在mutate动词中使用的表达式.服务器接收表达式作为文本,我想知道如何使mutate在dplyr 0.7中执行它.我可以使用mutate_使其工作(部分),但现在已弃用.它还将新列名称定义为整个表达式而不是新变量

这是一个可重复的例子:

input_from_shiny <- "Petal.ratio = Petal.Length/Petal.Width"
iris_mutated <- iris %>% mutate_(input_from_shiny)

Run Code Online (Sandbox Code Playgroud)

这给出了以下内容

> head(iris_mutated)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species Petal.ratio = Petal.Length/Petal.Width
1          5.1         3.5          1.4         0.2  setosa                                   7.00
2          4.9         3.0          1.4         0.2  setosa                                   7.00
3          4.7         3.2          1.3         0.2  setosa                                   6.50
4          4.6         3.1          1.5         0.2  setosa                                   7.50
5          5.0         3.6          1.4         0.2  setosa                                   7.00
6          5.4         3.9          1.7         0.4  setosa                                   4.25

Run Code Online (Sandbox Code Playgroud)

从技术上讲,我可以使用正则表达式从字符串中提取新的变量名并相应地重命名新列,但我想知道使用最新的dplyr版本实现它的正确方法是什么(正在阅读https://cran.r-project .org/web/packages/dplyr/vignettes/programming.html,但无法弄清楚)

r dplyr nse tidyeval

Sas*_*sha

2018 05-22

8
推荐指数

1
解决办法

1908
查看次数

使用Python在Excel中格式化单元格

如何使用python格式化Excel中的单元格？

特别是我需要将几个后续行的字体更改为常规而不是粗体.

python excel formatting

Sas*_*sha

2016 12-09

6
推荐指数

1
解决办法

2万
查看次数

内联R表达式返回不正确的值

如果Rmd文件中的R代码重用相同的变量名,则内联r表达式似乎返回此变量的最后一个值,而不管内联表达式的位置如何.除了确保在文档的不同部分不重用相同的变量名之外,是否存在避免此行为的问题？

可重复的例子

---
title: "R Notebook"
output: html_notebook
---


```{r}
df <- cars
nrow(df)
```

The dataset has `r nrow(df)` rows.


```{r}
df <- iris
nrow(df)
```

The dataset has `r nrow(df)` rows.

Run Code Online (Sandbox Code Playgroud)

这会产生以下输出

我正在使用:R版本3.3.2(2016-10-31)平台:x86_64-w64-mingw32/x64(64位)运行于:Windows 7 x64(build 7601)Service Pack 1

rmarkdown_1.4 knitr_1.15.1

r r-markdown rnotebook

Sas*_*sha

2017 03-28

6
推荐指数

1
解决办法

679
查看次数

什么是最简单的数据库用于Python和Matlab？

我需要操纵大量的数字/文本数据,总共100亿个条目,理论上可以组织为1000个10000*1000个表.大多数计算需要每次对一小部分数据(特定行或列)执行,这样我不需要同时处理所有数据.

因此,我有兴趣将数据存储在某种数据库中,这样我就可以轻松搜索数据库,检索符合定义标准的多行/列,进行一些计算并更新数据库.数据库应该可以通过Python和Matlab访问,我使用Python主要用于创建原始数据并将其放入数据库和Matlab进行数据处理.

整个项目在Windows 7上运行.什么是最好的,主要是我可以用于此目的的最简单的数据库？我根本没有数据库经验.

python database matlab

Sas*_*sha

lucky-day

4
推荐指数

1
解决办法

2738
查看次数

我正在R中构建一个语言模型,根据前面的单词预测句子中的下一个单词.目前我的模型是一个简单的ngram模型,带有Kneser-Ney平滑.它通过在训练集中找到具有最大概率(频率)的ngram来预测下一个字,其中平滑提供了一种内插低阶ngrams的方法,这在高阶ngram具有低频率并且可能不提供可靠预测的情况下是有利的. .虽然这种方法工作得相当好,但是在n-gram无法捕获上下文的情况下它会失败.例如,"外面温暖而阳光充足,让我们去......"和"外面寒冷和下雨,让我们去......"将提出相同的预测,因为没有捕捉到天气的背景在最后的n-gram中(假设n <5).

我正在寻找更高级的方法,我找到了text2vec包,它允许将单词映射到向量空间,其中具有相似含义的单词用相似(近似)向量表示.我有一种感觉,这种表示可能有助于下一个单词预测,但我无法弄清楚如何定义训练任务.我的问题是,如果text2vec是用于下一个单词预测的正确工具,如果是,那么可以用于此任务的合适预测算法是什么？

nlp r n-gram text2vec

Sas*_*sha

2016 09-14

4
推荐指数

2
解决办法

1989
查看次数

如何控制绘图中箱线图点的颜色？

我想通过使用本机绘图功能来重现此 ggplot 图

ggplot(mtcars, aes(x="mpg", y=mpg))+
geom_boxplot()+geom_jitter(aes(color = mpg),width = 0.3,size=4)+
scale_color_gradient(low="blue", high="yellow", guide = 'none')
ggplotly()

Run Code Online (Sandbox Code Playgroud)

我正在尝试做这样的事情

    plot_ly(data=mtcars, y = ~mpg, 
               type = "box", boxpoints = "all", jitter = 0.3, 
               marker=list(color=~mpg, size=10),pointpos = 0)

Run Code Online (Sandbox Code Playgroud)

但我找不到控制点颜色的方法（color=~mpg 不执行任何操作）

我需要使用本机绘图而不是使用上面提到的“plotlyfied”ggplot 来实现它的原因是我需要与在本机绘图中实现的其他绘图保持风格一致性。

r plotly

Sas*_*sha

2021 03-25

4
推荐指数

1
解决办法

2451
查看次数

在R中最后拆分一个带有数字的字符串

如何将包含数字(未知位数)的字符串拆分为两个字符串 - 数字和字符串的其余部分.请注意,字符串中可能存在其他不应受影响的数字.例如:

"abc665abc12"   -> "abc665abc", "12"
"abc665abc 182" -> "abc665abc", "182"
"abc665abc0"    -> "abc665abc", "0"

Run Code Online (Sandbox Code Playgroud)

谢谢!

regex split r

Sas*_*sha

2015 11-22

3
推荐指数

2
解决办法

243
查看次数

在 R 中从 XML 中提取数据

我需要从 XML 中提取某些数据，如下所示（为简洁起见，进行了简化）

<Doc name="Doc1">
    <Lists Count="1">
        <List Name="List1">
            <Points Count="3">
                <Point Id="1">
                    <Tags Count ="1">"a"</Tags>
                    <Point Position="1"  /> 
                </Point>
                <Point Id="2">
                    <Point Position="2"  /> 
                </Point>
                <Point Id="3">
                    <Tags Count="1">"c"</Tags>
                    <Point Position="3"  /> 
                </Point>
            </Points>
        </List>
    </Lists>
</Doc>

Run Code Online (Sandbox Code Playgroud)

输出应该是一个数据框，该数据框与每个点 ID 的标签和位置相匹配

    Point  Tag Position
1     1    a        1
2     2 <NA>        2
3     3    c        3

Run Code Online (Sandbox Code Playgroud)

我是 XML 新手，我正在使用 xml2 包。到目前为止，我可以单独提取每个变量，但由于某些点可能没有 Tag data ，我找不到在三个参数之间进行匹配的方法。

> library(xml2)
> xml_data<-read_xml(...)
> xml_data %>% xml_find_all("//Point") %>% xml_attr("Id")
[1] "1" "2" "3"
> xml_data …

Run Code Online (Sandbox Code Playgroud)

xml r

Sas*_*sha

2016 10-17

3
推荐指数

1
解决办法

6810
查看次数

标签统计

r ×8

python ×4

regex ×2

database ×1

directory ×1

dplyr ×1

email ×1

excel ×1

formatting ×1

matlab ×1

mouse ×1

n-gram ×1

nlp ×1

nse ×1

plotly ×1

r-markdown ×1

rnotebook ×1

shiny ×1

shiny-server ×1

split ×1

stringr ×1

text2vec ×1

tidyeval ×1

xml ×1

小编Sas_sha的帖子

用Python控制鼠标

使用Python检查电子邮件

在R中的其他两个字符串之间提取字符串

Shiny app(R)中的交互式目录输入

R:使用字符串作为参数来改变dplyr中的动词

使用Python在Excel中格式化单元格

内联R表达式返回不正确的值

什么是最简单的数据库用于Python和Matlab？

用R中的text2vec预测下一个单词

如何控制绘图中箱线图点的颜色？

在R中最后拆分一个带有数字的字符串

在 R 中从 XML 中提取数据

标签统计

标签 统计

小编Sas_sha的帖子

标签统计