标签: bayesian-networks

如何从字符串的 DataFrame 列中获取唯一单词？

我正在寻找一种方法来获取 DataFrame 中一列字符串中的唯一单词列表。

import pandas as pd
import numpy as np

df = pd.read_csv('FinalStemmedSentimentAnalysisDataset.csv', sep=';',dtype= 
       {'tweetId':int,'tweetText':str,'tweetDate':str,'sentimentLabel':int})

tweets = {}
tweets[0] = df[df['sentimentLabel'] == 0]
tweets[1] = df[df['sentimentLabel'] == 1]

Run Code Online (Sandbox Code Playgroud)

我使用的数据集来自此链接：http : //thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/

我得到了这个带有可变长度字符串的列，我想获得该列中每个唯一单词的列表及其计数，我怎样才能得到它？我在 python 中使用 Pandas，原始数据库有超过 100 万行，所以我还需要一些有效的方法来足够快地处理它，并且不会使代码运行太长时间。

列的示例可以是：

为我的 apl 朋友感到难过。
天哪，这太可怕了。
这是什么新歌？

列表可能类似于。

[is,so,sad,for,my,apl,friend,omg,this,terrible,what,new,song]

python numpy bayesian-networks dataframe pandas

Pan*_*.V5

2020 06-20

2
推荐指数

1
解决办法

3280
查看次数

是否可以将内核技巧应用于朴素贝叶斯算法？

我想为我的计算机科学论文改进一些关于朴素贝叶斯算法的东西,我正在阅读有关内核技巧以及它如何改进SVM和其他机器学习算法的内容.这一切都准备好了吗？任何其他方法来改善朴素贝叶斯算法或其他类别？

classification machine-learning bayesian-networks

use*_*555

2014 04-05

1
推荐指数

1
解决办法

416
查看次数

类型错误：“DiscreteFactor”对象不可下标

我有一个要执行的贝叶斯算法程序，我使用的是 python 3

import numpy as np
import csv
import pandas as pd
from pgmpy.models import BayesianModel
from pgmpy.estimators import MaximumLikelihoodEstimator
from pgmpy.inference import VariableElimination


heartDisease = pd.read_csv('heart.csv')
heartDisease = heartDisease.replace('?',np.nan)

print('Few examples from the dataset are given below')
print(heartDisease.head())

model = BayesianModel([('age','trestbps'),('age','fbs'),('sex','trestbps'),('exang','trestbps'),('trestbps','heartdisease'),('fbs','heartdisease'),('heartdisease','restecg'),('heartdisease','thalach'),('heartdisease','chol')])

print('\nLearning CPD using Maximum likelihood estimators')
model.fit(heartDisease,estimator=MaximumLikelihoodEstimator)

print('\n Inferencing with Bayesian Network:')
HeartDisease_infer = VariableElimination(model)

print('\n 1. Probability of HeartDisease given Age=28')
q=HeartDisease_infer.query(variables=['heartdisease'],evidence={'age':28})
print(q['heartdisease'])

print('\n 2. Probability of HeartDisease given cholesterol=100')
q=HeartDisease_infer.query(variables=['heartdisease'],evidence={'chol':100})
print(q['heartdisease'])

Run Code Online (Sandbox Code Playgroud)

当我运行贝叶斯网络程序时收到的错误是：

TypeError                                 Traceback (most …

Run Code Online (Sandbox Code Playgroud)

python bayesian-networks pandas pytorch pgmpy

Man*_*ash

lucky-day

1
推荐指数

1
解决办法

2504
查看次数

是否有一个 R 函数可以从数据框中选择 N 个随机列？

是否有一个 R 函数可以从数据框中选择 N 个随机列？我正在尝试检查用于贝叶斯网络结构学习的 Sparsebn 包的时间复杂度

我已经尝试过了，但是该算法不仅选择 N 列，还选择 N 行。如何解决这个问题？

library(sparsebn)
library(igraph)
library(graph)

df <- read.csv("data/arth150.csv", header = TRUE, sep = ",", check.names = FALSE)

df <- as.data.frame(unclass(df), stringsAsFactors = TRUE)

experiment_range <- list(10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 106)

timelist <- list()

for (i in experiment_range) {
  rand_df <- df[sample(ncol(df), size=i), ]
  start_time <- Sys.time()
  dat <- sparsebnData(rand_df, type = 'c')
  dags <- estimate.dag(data = dat)
  end_time <- Sys.time()
  ctime <- end_time - …

Run Code Online (Sandbox Code Playgroud)

r bayesian-networks dataframe

作者

lucky-day

1
推荐指数

1
解决办法

893
查看次数