我正在使用R包randomForest来对一些生物数据进行回归.我的训练数据大小是38772 X 201.
我只是想知道---树木ntree的数量和每个级别的变量数量有什么好处mtry?是否有一个近似的公式来找到这样的参数值?
我的输入数据中的每一行都是一个代表氨基酸序列的200个字符,我想建立一个回归模型来使用这样的序列来预测蛋白质之间的距离.
case_when我在链内运行以下命令dplyr:
open_flag = case_when (
open_flag == 0 & (click_flag > 0 | mirror_flag > 0) ~ 1,
TRUE ~ open
)
Run Code Online (Sandbox Code Playgroud)
上面的所有变量都是类型int。然而,我收到了这条消息:
由名称(消息)错误引起 <- vtmp : ! “names”属性 [1] 的长度必须与向量 [0] 相同
我发现这篇文章(dplyr::case_when() 莫名其妙地返回名称(消息)<-`*vtmp*`错误)确定了问题。我不完全理解这个问题,所以我未能为我的case_when()上述问题应用解决方案!
注意:我可以使用 解决问题ifelse(),但我真的不知道如何解决该case_when()语句!
非常简单的问题:我喜欢写R笔记本/降价促销,并且highlight: tango当我将笔记本编织成pdfs时,我可以为代码提供背景颜色.
但是,我不知道如何给R中的打印输出提供彩色背景或彩色字体.例如,假设我有以下块.
```{r, echo = FALSE}
writeLines("Help")
```
Run Code Online (Sandbox Code Playgroud)
我希望看到"帮助"这个词突出显示,用灰色背景的红色字体说.我怎样才能做到这一点?
提前谢谢了.
我对 R 很陌生,所以我在这里遇到了一些困难,而且我还没有找到问题的答案。
我正在尝试在 R 中生成一个简单的条形图,并且我已将 x 轴变量标签设置为垂直,使用las=2. par(mar=c(20,15,5,3))然后,我使用和更改了条形图的边距,以便标签不会与 xlab 标签重叠par(mgp=c(6,1,0))。
我想为此添加一个图例,但我的图例采用了图表本身的边距尺寸,因此它看起来太大并且不适合。我尝试使用cex,但这只会影响图例中的文本。无论如何,我是否可以独立更改图例边距(或图形边距)?
这是我编码的内容:
par(mar=c(20,15,5,3))
par(mgp=c(6,1,0))
par(xpd=TRUE)
barplot(
names.arg=c("Africa", "Central America, South America, Caribbean",
"Middle East", "Central and Eastern Europe",
"South and East Asia"),
cex.names=0.8, las=2, t(YLL),
ylab="Percentage (%)", ylim=c(0,100), main="", beside=TRUE,
col= c("green4", "orange"),xlab="Regions", mar=c(20,15,5,3)
)
legend(
10, 100,
legend=c("Communicable diseases", "Communicable diseases"),
fill= c("green4", "orange"), cex=0.7
)
Run Code Online (Sandbox Code Playgroud)
我将非常感谢您的帮助,谢谢。
我在用 Rstudio 做数据处理,当我用一个非常大的数据集做一些事情时,这个过程死了。我重新启动了计算机,但由于内存限制,Rstudio 一直没有响应或缓慢(目前,它占用了我 16gb RAM 中的 8gb)。
我尝试做我在 Stackoverflow 上找到的所有标准的东西。
gc() 和 gc(reset=T)rm(list = ls()).rs.restartR()但是当我打开 Rstudio 时,内存使用量会迅速攀升并使整个事情变得无响应。有没有人遇到过类似的事情?
我使用的是 Windows 10、R 3.4.1、Rstudio 1.0.153。
gc(result = T)输出结果
Ncells 1311025 70.1 2164898 115.7 1311025 70.1
Vcells 2368039 18.1 3851194 29.4 2368039 18.1
Run Code Online (Sandbox Code Playgroud)
我从来没有遇到过这样的问题,现在我对为什么没有释放内存感到困惑。有人有什么建议吗?
dbWriteTable()在RMySQL包中使用时,0 无论值如何,逻辑值都被写入。我希望TRUE值会返回一个1:
# Setup
# con is a valid MySQLConnection object
> df <- data.frame(string = 'Testing Logical Values',
t_lgl = TRUE,
f_lgl = FALSE,
stringsAsFactors = FALSE)
> df
string t_lgl f_lgl
1 Testing Logical Values TRUE FALSE
> class(df[,2])
[1] "logical"
# Test
# This schema has no tables until dbWriteTable() is called
> dbWriteTable(con,'test_table',df)
[1] TRUE
# Result
> dbReadTable(con,'test_table')
string t_lgl f_lgl
1 Testing Logical Values 0 0 …Run Code Online (Sandbox Code Playgroud) 我正在使用该visreg包gg = TRUE(因此它将使用ggplot2图形)来渲染我的拟合模型图。
它会自动使用自变量因子的名称作为 x 轴标签,但我需要它们的外观略有不同,并尝试使用scale_x_discrete可以在此处看到的更改标签文本。
但是当我这样做时,x 轴标签、轴线及其标题变为空白。我相信我没有将labels参数映射到breaks参数。
我也收到消息
'x' 的比例已经存在。为“x”添加另一个比例,这将替换现有比例。
问题可能在于如何visreg存储变量(及其级别)信息。ggplot2单独使用时,可以使用data$variablename. 但是通过visreg这个创建基本情节并不是那么简单。
我已经尝试过的:
fit$xlevels$Species.visreg可能是将整数作为级别并尝试使用
breaks = c(as.factor("1","2","3")).如何重现问题:
library(visreg)
library(ggplot2)
data(iris)
fit <- lm(Sepal.Length ~ Species, data = iris)
visreg(fit, gg = T) +
theme(axis.line = element_line(colour = "black")) +
scale_x_discrete(breaks = c("setosa", "versicolor", "virginica"),
labels = c("SETOSA", "VERSICOLOR", "VIRGINICA")) …Run Code Online (Sandbox Code Playgroud) 假设有一个列表如下:
x <- list(a = list(a1 = 1, a2 = 2), b = list(a2 = 3, a1 = 4))
Run Code Online (Sandbox Code Playgroud)
位置/名称混合在子列表中,a1要从列表中取出s,我将在purrr.
x %>% map(purrr::pluck, "a1")
$`a`
[1] 1
$b
[1] 4
Run Code Online (Sandbox Code Playgroud)
为了扔掉一个元素而不是保留它,我进行了一些实验,并提出了以下内容(我在a2这里扔掉了)。
x %>% map(purrr::assign_in, "a2", value = NULL)
$`a`
$`a`$`a1`
[1] 1
$b
$b$`a1`
[1] 4
Run Code Online (Sandbox Code Playgroud)
在采摘方面,我实际上更喜欢第二种风格——也就是说,保持列表索引结构不变,同时只返回我想要的元素。所以我更希望一旦我执行x %>% map(purrr::pluck, "a1"),我就会得到第二个结果。
或者,也许有一种更好的方法来抛出purrr我不知道的对象,以便两个代码的输出样式(采摘,扔掉)保持一致?
我有一个 DDE 链接,用于提供我的 excel 电子表格。这是 DDE 链接:NAMEofTheCOMPANY|cot!STOCKA.LAST,它为我提供实时市场股票价格。然后我将它粘贴到 excel 电子表格上的一个单元格中,该单元格工作正常。
我需要的是以下内容:
我想提取有关此链接中每个广告的信息。现在,我已经到了可以自动单击 的阶段See Ad Details,但是有很多底层数据并不容易整理成一个整洁的数据框。
library(RSelenium)
rs <- rsDriver()
remote <- rs$client
remote$navigate(
paste0(
"https://www.facebook.com/ads/library/?",
"active_status=all&ad_type=political_and_issue_ads&country=US&",
"impression_search_field=has_impressions_lifetime&",
"q=actblue&view_all_page_id=38471053686"
)
)
test <- remote$findElement(using = "xpath", "//*[@class=\"_7kfh\"]")
test$clickElement()
## Manually figured out element
test <- remote$findElement(using = "xpath", "//*[@class=\"_7lq0\"]")
test$getElementText()
Run Code Online (Sandbox Code Playgroud)
输出文本本身很乱,但我相信通过一些时间和努力,它可以被整理成有用的东西。问题是在处理底层数据
我不知道如何系统地提取此图像,尤其是传单 svg。在这种情况下,我将如何获取每个广告,然后提取详细信息中可用的完整数据?