尝试使用 BNlearn 创建 BN,但我一直收到错误消息;
Error in check.data(data, allowed.types = discrete.data.types) : variable Variable1 must have at least two levels.
Run Code Online (Sandbox Code Playgroud)
它给了我每个变量的错误,即使它们都是因素并且有超过 1 个级别,正如您所看到的 - 在这种情况下,我的变量“模型”有 4 个级别
由于我无法共享变量和数据集,因此我创建了一个小集并属于数据集的代码。我遇到同样的问题。我知道我只共享了 2 个变量,但是所有变量都出现了相同的错误。
library(tidyverse)
library (bnlearn)
library(openxlsx)
DataFull <- read.xlsx("(.....)/test.xlsx", sheet = 1, startRow = 1, colNames = TRUE)
set.seed(600)
DataFull <- as_tibble(DataFull)
DataFull$Variable1 <- as.factor(DataFull$Variable1)
DataFull$TargetVar <- as.factor(DataFull$TargetVar)
DataFull <- na.omit(DataFull)
DataFull <- droplevels(DataFull)
DataFull <- DataFull[sample(nrow(DataFull)),]
Data <- DataFull[1:as.integer(nrow(DataFull)*0.70)-1,]
Datatest <- DataFull[as.integer(nrow(DataFull)*0.70):nrow(DataFull),]
nrow(Data)+nrow(Datatest)==nrow(DataFull)
FocusVar <- as.character("TargetVar")
BN.naive <- naive.bayes(Data, FocusVar)
Run Code Online (Sandbox Code Playgroud)
使用str(data),我可以看到变量已经有 2 个或更多级别:
字符串(数据)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 27586 obs. of 2 variables:
$ Variable1: Factor w/ 3 levels "Small","Medium",..: 2 2 3 3 3 3 3 3 3 3 ...
$ TargetVar: Factor w/ 2 levels "Yes","No": 1 1 1 1 1 1 2 1 1 1 ...
Run Code Online (Sandbox Code Playgroud)
数据集链接:https : //drive.google.com/open?id=1VX2xkPdeHKdyYqEsD0FSm1BLu1UCtOj9eVIVfA_KJ3g
bnlearn期望 a data.frame: 不适用于tibbles,因此data.frame通过省略该行将您的数据保留为 aDataFull <- as_tibble(DataFull)
例子
library(tibble)
library (bnlearn)
d <- as_tibble(learning.test)
hc(d)
Run Code Online (Sandbox Code Playgroud)
check.data(x) 错误:变量 A 必须至少有两个级别。
特别是,它是从 bnlearn:::check.data
if (nlevels(x[, col]) < 2)
stop("variable ", col, " must have at least two levels.")
Run Code Online (Sandbox Code Playgroud)
在标准中data.frame,learning.test[,"A"]返回一个向量,因此nlevels(learning.test[,"A"])按预期工作,但是,根据设计,您不能从tibbles: 中提取这样的向量:d[,"A"])仍然是一个tbl_df而不是向量,因此nlevels(d[,"A"])不能按预期工作,并返回零。