标签: bayesian

是否有适用于.NET的贝叶斯过滤器库

是否有适用于.NET的贝叶斯过滤器库?

我想设置一组文件夹,并根据之前移动到该文件夹​​的内容自动将电子邮件移动到这些文件夹.

如果您熟悉FogBugz自动排序,那正是我想要做的.

.net bayesian

6
推荐指数
1
解决办法
678
查看次数

检测贝叶斯分类器中的未知类

如果你有一个针对一组类训练的贝叶斯分类器,如何检测输出是否足以选择一个类?这对于检测不能归类的样本是有用的.我已经尝试过测试类概率是否超过所有clases概率的均值+ 2*stddev,但我认为它不会很强大.

classification bayesian

6
推荐指数
1
解决办法
966
查看次数

贝叶斯分类器的PHP实现:将主题分配给文本

在我的新闻页面项目中,我有一个具有以下结构的数据库表新闻:

 - id: [integer] unique number identifying the news entry, e.g.: *1983*
 - title: [string] title of the text, e.g.: *New Life in America No Longer Means a New Name*
 - topic: [string] category which should be chosen by the classificator, e.g: *Sports*
Run Code Online (Sandbox Code Playgroud)

此外,还有一个表格托架,其中包含有关字频率的信息:

 - word: [string] a word which the frequencies are given for, e.g.: *real estate*
 - topic: [string] same content as "topic" field above, e.h. *Economics*
 - count: [integer] number of occurrences of …
Run Code Online (Sandbox Code Playgroud)

php text classification linguistics bayesian

6
推荐指数
1
解决办法
2759
查看次数

什么是一个很好的开源软件包,用于在大型Rails站点上构建灵活的垃圾邮件检测?

我的网站越来越大,它开始通过各种渠道吸引大量垃圾邮件.该网站有许多不同类型的UGC(个人资料,论坛,博客评论,状态更新,私人消息等).我正在进行各种缓解措施,我希望以闪电般的方式进行部署,以使垃圾邮件发送者相信我们不是一个有价值的目标.我对我正在做的功能有很高的信心,但是一个缺失的部分就是一次性杀死所有旧的垃圾邮件.

这就是我所拥有的:

  • 大的好/坏语料库(5位数不好,6或7位数字好).很多垃圾邮件都有非常可靠的指纹,事实上我已经忽略它6个月有助于:)
  • 部署到AWS的大型模块化Rails站点.它不是一个巨大的流量站点,但我们在SOA的开始运行8个实例.
  • Ruby,Redis,Resque,MySQL,Varnish,Nginx,Unicorn,Chef,都在Gentoo上

我的要求:

  1. 我希望它在数据量方面表现得相当好(因此我对纯ruby解决方案持谨慎态度).
  2. 我应该能够针对不同类型的内容训练多种分类(419-scam vs僵尸网络链接垃圾邮件)
  3. 我希望能够根据我们自己的侦探工作(模式匹配,IP重用等)添加手动因素
  4. 最终我想构建一个与Ruby一起使用的漂亮接口.如果这需要我的手弄脏C或其他什么,我可以处理它,但如果可以的话我会避免它.

我意识到这是一个漫长而模糊的问题,但我正在寻找的主要是一个好的包列表,其次是来自某个人的随机想法,这些人建立了一个类似的方法来处理它.

ruby linux soa spam bayesian

6
推荐指数
1
解决办法
489
查看次数

文本分类到类别

我正在研究文本分类问题,我正在尝试将一组单词分类为类别,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答.

让我解释一下我想要实施的内容.(以身份为例)

单词列表:

  1. java的
  2. 程序设计
  3. 语言
  4. C-尖锐

类别清单.

  1. java的
  2. C-尖锐

在这里我们将训练该组,如:

  1. java映射到类别1. java
  2. 编程映射到类1.java
  3. 编程映射到类别2.c-sharp
  4. 语言映射到类1.java
  5. 语言映射到类别2.c-sharp
  6. c-sharp映射到类别2.c-sharp

现在我们有一个短语" 最好的java编程书 "来自给定的短语,下面的单词与我们的"单词列表"匹配.:

  1. java的
  2. 程序设计

"编程"有两个映射类别"java"和"c-sharp",因此它是一个常用词.

"java"仅映射到"java"类别.

所以这个短语的匹配类别是"java"

这就是我想到的,这个解决方案很好,可以实现,你的建议是什么,我错过的任何东西,缺陷等等.

classification machine-learning bayesian

6
推荐指数
1
解决办法
5300
查看次数

朴素的贝叶斯和零频率问题

我想我已经正确实施了大部分内容.一部分让我困惑:

零频率问题:当每个类值没有出现属性值时,为每个属性值类组合(拉普拉斯估计器)的计数加1.

这是我的一些客户端代码:

//Clasify
string text = "Claim your free Macbook now!";
double posteriorProbSpam = classifier.Classify(text, "spam");
Console.WriteLine("-------------------------");
double posteriorProbHam = classifier.Classify(text, "ham");
Run Code Online (Sandbox Code Playgroud)

现在说某些地方的训练数据中有"免费"这个词

//Training
classifier.Train("ham", "Attention: Collect your Macbook from store.");
*Lot more here*
classifier.Train("spam", "Free macbook offer expiring.");
Run Code Online (Sandbox Code Playgroud)

但是这个词出现在我的"垃圾邮件"类别的培训数据中,而不是"火腿".所以当我去计算posteriorProbHam时,当我遇到"免费"这个词时我该怎么办.

在此输入图像描述

algorithm machine-learning spam-prevention bayesian

6
推荐指数
1
解决办法
4858
查看次数

R:了解MCMCglmm的输出

我执行了MCMCglmm(MCMCglmm封装)。这是此模型的摘要

 Iterations = 3001:12991
 Thinning interval  = 10
 Sample size  = 1000 

 DIC: 211.0108 

 G-structure:  ~Region

       post.mean  l-95% CI u-95% CI eff.samp
Region    0.2164 5.163e-17    0.358     1000

 R-structure:  ~units

      post.mean l-95% CI u-95% CI eff.samp
units    0.5529   0.1808    1.045    449.3

 Location effects: Abondance ~ Human_impact/Fish.sp 

                                   post.mean  l-95% CI  u-95% CI eff.samp  pMCMC    
(Intercept)                         1.335628  0.780363  1.907249    642.4  0.004 ** 
Human_impact                        0.005781 -0.294084  0.347743    876.6  0.914    
Human_impact:Fish.spA. perideraion -0.782846 -1.158798 -0.399131    649.9 <0.001 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ …
Run Code Online (Sandbox Code Playgroud)

statistics r bayesian linear-regression

6
推荐指数
1
解决办法
6714
查看次数

python中的文本分类 - (基于NLTK句子)

我需要对文本进行分类,我正在使用Text blob python模块来实现它.我可以使用朴素贝叶斯分类器/决策树.我担心下面提到的几点.

1)我需要将句子分类为参数/不是参数.我使用两个分类器并使用apt数据集训练模型.我的问题是关于我是否需要仅使用关键字训练模型?或者我可以用所有可能的参数和非参数样本句子训练数据集?哪个是文本分类准确性和检索时间方面的最佳方法?

2)由于分类是参数/不是参数,哪个分类器可以获取精确的结果?这是朴素贝叶斯/决策树/积极朴素的贝叶斯?

提前致谢.

python classification machine-learning bayesian python-3.x

6
推荐指数
1
解决办法
1071
查看次数

pymc3:具有多个obsesrved变量的分层模型

我有一个简单的分层模型,有很多个人,我从正态分布中得到小样本.这些分布的均值也遵循正态分布.

import numpy as np

n_individuals = 200
points_per_individual = 10
means = np.random.normal(30, 12, n_individuals)
y = np.random.normal(means, 1, (points_per_individual, n_individuals))
Run Code Online (Sandbox Code Playgroud)

我想使用PyMC3从样本中计算模型参数.

import pymc3 as pm
import matplotlib.pyplot as plt

model = pm.Model()
with model:
    model_means = pm.Normal('model_means', mu=35, sd=15)

    y_obs = pm.Normal('y_obs', mu=model_means, sd=1, shape=n_individuals, observed=y)

    trace = pm.sample(1000)

pm.traceplot(trace[100:], vars=['model_means'])
plt.show()
Run Code Online (Sandbox Code Playgroud)

mcmc样本

我期待后面model_means看起来像我原来的手段分布.但它似乎趋同于30手段的意思.如何从pymc3模型中恢复均值(我的例子中为12)的原始标准偏差?

bayesian mcmc pymc3

6
推荐指数
1
解决办法
1173
查看次数

使用MCMCglmm的R中的贝叶斯误差变量(总最小二乘)模型

我正在使用MCMCglmm包中的一些贝叶斯线性混合模型R.我的数据包括使用错误测量的预测变量.因此,我想建立一个考虑到这一点的模型.我的理解是,基本的混合效应模型MCMCglmm将仅对响应变量(如ols回归)中的误差最小化.换句话说,垂直误差将被最小化.我想最小化与回归线/平面/超平面正交的误差.

  1. 是否可以使用MCMCglmm或者我必须使用JAGS/STAN来进行变量误差(也就是总最小二乘)模型?
  2. 是否可以在同一模型中使用多个预测变量来实现这一点(我有一些模型有3个或4个预测变量,每个模型都有误差测量)?
  3. 如果可能,我该如何指定模型?

我在下面列出了一个数据集,其中一个随机变量height用错误来衡量,以说明基本设置MCMCglmm.

library(nlme)
library(MCMCglmm)

data(Orthodont)

set.seed(1234)

Orthodont$height <- c(rnorm(54, 170, 10), rnorm(54, 150, 10))

prior1 <- list(
    B = list(mu = rep(0, 3), V = diag(1e+08, 3)), 
    G = list(G1 = list(V = 1, nu = 1, alpha.mu = 0, alpha.V = 1000)), 
    R = list(V = 1, nu = 0.002)
)

model1 <- MCMCglmm(
    fixed = distance ~ height + Sex,   
    random …
Run Code Online (Sandbox Code Playgroud)

r bayesian linear-regression mcmc mixed-models

6
推荐指数
0
解决办法
432
查看次数