标签: bayesian-networks

如何从字符串的 DataFrame 列中获取唯一单词?

我正在寻找一种方法来获取 DataFrame 中一列字符串中的唯一单词列表。

import pandas as pd
import numpy as np

df = pd.read_csv('FinalStemmedSentimentAnalysisDataset.csv', sep=';',dtype= 
       {'tweetId':int,'tweetText':str,'tweetDate':str,'sentimentLabel':int})

tweets = {}
tweets[0] = df[df['sentimentLabel'] == 0]
tweets[1] = df[df['sentimentLabel'] == 1]
Run Code Online (Sandbox Code Playgroud)

我使用的数据集来自此链接:http : //thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/

我得到了这个带有可变长度字符串的列,我想获得该列中每个唯一单词的列表及其计数,我怎样才能得到它?我在 python 中使用 Pandas,原始数据库有超过 100 万行,所以我还需要一些有效的方法来足够快地处理它,并且不会使代码运行太长时间。

列的示例可以是:

  • 为我的 apl 朋友感到难过。

  • 天哪,这太可怕了。

  • 这是什么新歌?

    列表可能类似于。

[is,so,sad,for,my,apl,friend,omg,this,terrible,what,new,song]

python numpy bayesian-networks dataframe pandas

2
推荐指数
1
解决办法
3280
查看次数

是否可以将内核技巧应用于朴素贝叶斯算法?

我想为我的计算机科学论文改进一些关于朴素贝叶斯算法的东西,我正在阅读有关内核技巧以及它如何改进SVM和其他机器学习算法的内容.这一切都准备好了吗?任何其他方法来改善朴素贝叶斯算法或其他类别?

classification machine-learning bayesian-networks

1
推荐指数
1
解决办法
416
查看次数

类型错误:“DiscreteFactor”对象不可下标

我有一个要执行的贝叶斯算法程序,我使用的是 python 3

import numpy as np
import csv
import pandas as pd
from pgmpy.models import BayesianModel
from pgmpy.estimators import MaximumLikelihoodEstimator
from pgmpy.inference import VariableElimination


heartDisease = pd.read_csv('heart.csv')
heartDisease = heartDisease.replace('?',np.nan)

print('Few examples from the dataset are given below')
print(heartDisease.head())

model = BayesianModel([('age','trestbps'),('age','fbs'),('sex','trestbps'),('exang','trestbps'),('trestbps','heartdisease'),('fbs','heartdisease'),('heartdisease','restecg'),('heartdisease','thalach'),('heartdisease','chol')])

print('\nLearning CPD using Maximum likelihood estimators')
model.fit(heartDisease,estimator=MaximumLikelihoodEstimator)

print('\n Inferencing with Bayesian Network:')
HeartDisease_infer = VariableElimination(model)

print('\n 1. Probability of HeartDisease given Age=28')
q=HeartDisease_infer.query(variables=['heartdisease'],evidence={'age':28})
print(q['heartdisease'])

print('\n 2. Probability of HeartDisease given cholesterol=100')
q=HeartDisease_infer.query(variables=['heartdisease'],evidence={'chol':100})
print(q['heartdisease'])
Run Code Online (Sandbox Code Playgroud)

当我运行贝叶斯网络程序时收到的错误是:

TypeError                                 Traceback (most …
Run Code Online (Sandbox Code Playgroud)

python bayesian-networks pandas pytorch pgmpy

1
推荐指数
1
解决办法
2504
查看次数

是否有一个 R 函数可以从数据框中选择 N 个随机列?

是否有一个 R 函数可以从数据框中选择 N 个随机列?我正在尝试检查用于贝叶斯网络结构学习的 Sparsebn 包的时间复杂度

我已经尝试过了,但是该算法不仅选择 N 列,还选择 N 行。如何解决这个问题?

library(sparsebn)
library(igraph)
library(graph)

df <- read.csv("data/arth150.csv", header = TRUE, sep = ",", check.names = FALSE)

df <- as.data.frame(unclass(df), stringsAsFactors = TRUE)

experiment_range <- list(10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 106)

timelist <- list()

for (i in experiment_range) {
  rand_df <- df[sample(ncol(df), size=i), ]
  start_time <- Sys.time()
  dat <- sparsebnData(rand_df, type = 'c')
  dags <- estimate.dag(data = dat)
  end_time <- Sys.time()
  ctime <- end_time - …
Run Code Online (Sandbox Code Playgroud)

r bayesian-networks dataframe

1
推荐指数
1
解决办法
893
查看次数

贝叶斯网络与模糊逻辑

谁能给我一个贝叶斯网络和模糊逻辑用于入侵检测的例子?

我正在努力弄清楚如何使用它.还有任何代码吗?

多谢你们.

matlab bayesian bayesian-networks fuzzy-logic neural-network

0
推荐指数
1
解决办法
1268
查看次数

连续变量的贝叶斯网络

我搜索并看到了一些关于此事的问题,但没有答案(由于问题是一年多前提出的,我希望事情有所改变)

我正在寻找一个库来从连续变量文件推断贝叶斯网络,是否有任何人遇到过的简单\开箱即用的东西?例如,我尝试过 pyAgrum 但是当我运行时

pyAgrum.BNLearner(numdata).learnDAG()

我明白了

异常:[pyAgrum] 类型错误:无法对连续变量执行计数。不幸的是以下变量是连续的:V0

已经尝试过几个库,但它们似乎都只适用于离散变量,希望提前得到一些帮助。

python bayesian-networks causality causalml

0
推荐指数
1
解决办法
1428
查看次数