是否有适用于.NET的贝叶斯过滤器库?
我想设置一组文件夹,并根据之前移动到该文件夹的内容自动将电子邮件移动到这些文件夹.
如果您熟悉FogBugz自动排序,那正是我想要做的.
如果你有一个针对一组类训练的贝叶斯分类器,如何检测输出是否足以选择一个类?这对于检测不能归类的样本是有用的.我已经尝试过测试类概率是否超过所有clases概率的均值+ 2*stddev,但我认为它不会很强大.
在我的新闻页面项目中,我有一个具有以下结构的数据库表新闻:
- id: [integer] unique number identifying the news entry, e.g.: *1983*
- title: [string] title of the text, e.g.: *New Life in America No Longer Means a New Name*
- topic: [string] category which should be chosen by the classificator, e.g: *Sports*
Run Code Online (Sandbox Code Playgroud)
此外,还有一个表格托架,其中包含有关字频率的信息:
- word: [string] a word which the frequencies are given for, e.g.: *real estate*
- topic: [string] same content as "topic" field above, e.h. *Economics*
- count: [integer] number of occurrences of …Run Code Online (Sandbox Code Playgroud) 我的网站越来越大,它开始通过各种渠道吸引大量垃圾邮件.该网站有许多不同类型的UGC(个人资料,论坛,博客评论,状态更新,私人消息等).我正在进行各种缓解措施,我希望以闪电般的方式进行部署,以使垃圾邮件发送者相信我们不是一个有价值的目标.我对我正在做的功能有很高的信心,但是一个缺失的部分就是一次性杀死所有旧的垃圾邮件.
这就是我所拥有的:
我的要求:
我意识到这是一个漫长而模糊的问题,但我正在寻找的主要是一个好的包列表,其次是来自某个人的随机想法,这些人建立了一个类似的方法来处理它.
我正在研究文本分类问题,我正在尝试将一组单词分类为类别,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答.
让我解释一下我想要实施的内容.(以身份为例)
单词列表:
类别清单.
在这里我们将训练该组,如:
现在我们有一个短语" 最好的java编程书 "来自给定的短语,下面的单词与我们的"单词列表"匹配.:
"编程"有两个映射类别"java"和"c-sharp",因此它是一个常用词.
"java"仅映射到"java"类别.
所以这个短语的匹配类别是"java"
这就是我想到的,这个解决方案很好,可以实现,你的建议是什么,我错过的任何东西,缺陷等等.
我想我已经正确实施了大部分内容.一部分让我困惑:
零频率问题:当每个类值没有出现属性值时,为每个属性值类组合(拉普拉斯估计器)的计数加1.
这是我的一些客户端代码:
//Clasify
string text = "Claim your free Macbook now!";
double posteriorProbSpam = classifier.Classify(text, "spam");
Console.WriteLine("-------------------------");
double posteriorProbHam = classifier.Classify(text, "ham");
Run Code Online (Sandbox Code Playgroud)
现在说某些地方的训练数据中有"免费"这个词
//Training
classifier.Train("ham", "Attention: Collect your Macbook from store.");
*Lot more here*
classifier.Train("spam", "Free macbook offer expiring.");
Run Code Online (Sandbox Code Playgroud)
但是这个词出现在我的"垃圾邮件"类别的培训数据中,而不是"火腿".所以当我去计算posteriorProbHam时,当我遇到"免费"这个词时我该怎么办.

我执行了MCMCglmm(MCMCglmm封装)。这是此模型的摘要
Iterations = 3001:12991
Thinning interval = 10
Sample size = 1000
DIC: 211.0108
G-structure: ~Region
post.mean l-95% CI u-95% CI eff.samp
Region 0.2164 5.163e-17 0.358 1000
R-structure: ~units
post.mean l-95% CI u-95% CI eff.samp
units 0.5529 0.1808 1.045 449.3
Location effects: Abondance ~ Human_impact/Fish.sp
post.mean l-95% CI u-95% CI eff.samp pMCMC
(Intercept) 1.335628 0.780363 1.907249 642.4 0.004 **
Human_impact 0.005781 -0.294084 0.347743 876.6 0.914
Human_impact:Fish.spA. perideraion -0.782846 -1.158798 -0.399131 649.9 <0.001 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ …Run Code Online (Sandbox Code Playgroud) 我需要对文本进行分类,我正在使用Text blob python模块来实现它.我可以使用朴素贝叶斯分类器/决策树.我担心下面提到的几点.
1)我需要将句子分类为参数/不是参数.我使用两个分类器并使用apt数据集训练模型.我的问题是关于我是否需要仅使用关键字训练模型?或者我可以用所有可能的参数和非参数样本句子训练数据集?哪个是文本分类准确性和检索时间方面的最佳方法?
2)由于分类是参数/不是参数,哪个分类器可以获取精确的结果?这是朴素贝叶斯/决策树/积极朴素的贝叶斯?
提前致谢.
我有一个简单的分层模型,有很多个人,我从正态分布中得到小样本.这些分布的均值也遵循正态分布.
import numpy as np
n_individuals = 200
points_per_individual = 10
means = np.random.normal(30, 12, n_individuals)
y = np.random.normal(means, 1, (points_per_individual, n_individuals))
Run Code Online (Sandbox Code Playgroud)
我想使用PyMC3从样本中计算模型参数.
import pymc3 as pm
import matplotlib.pyplot as plt
model = pm.Model()
with model:
model_means = pm.Normal('model_means', mu=35, sd=15)
y_obs = pm.Normal('y_obs', mu=model_means, sd=1, shape=n_individuals, observed=y)
trace = pm.sample(1000)
pm.traceplot(trace[100:], vars=['model_means'])
plt.show()
Run Code Online (Sandbox Code Playgroud)
我期待后面model_means看起来像我原来的手段分布.但它似乎趋同于30手段的意思.如何从pymc3模型中恢复均值(我的例子中为12)的原始标准偏差?
我正在使用MCMCglmm包中的一些贝叶斯线性混合模型R.我的数据包括使用错误测量的预测变量.因此,我想建立一个考虑到这一点的模型.我的理解是,基本的混合效应模型MCMCglmm将仅对响应变量(如ols回归)中的误差最小化.换句话说,垂直误差将被最小化.我想最小化与回归线/平面/超平面正交的误差.
MCMCglmm或者我必须使用JAGS/STAN来进行变量误差(也就是总最小二乘)模型? 我在下面列出了一个数据集,其中一个随机变量height用错误来衡量,以说明基本设置MCMCglmm.
library(nlme)
library(MCMCglmm)
data(Orthodont)
set.seed(1234)
Orthodont$height <- c(rnorm(54, 170, 10), rnorm(54, 150, 10))
prior1 <- list(
B = list(mu = rep(0, 3), V = diag(1e+08, 3)),
G = list(G1 = list(V = 1, nu = 1, alpha.mu = 0, alpha.V = 1000)),
R = list(V = 1, nu = 0.002)
)
model1 <- MCMCglmm(
fixed = distance ~ height + Sex,
random …Run Code Online (Sandbox Code Playgroud) bayesian ×10
mcmc ×2
r ×2
.net ×1
algorithm ×1
linguistics ×1
linux ×1
mixed-models ×1
php ×1
pymc3 ×1
python ×1
python-3.x ×1
ruby ×1
soa ×1
spam ×1
statistics ×1
text ×1