标签: bayesian

 - id: [integer] unique number identifying the news entry, e.g.: *1983*
 - title: [string] title of the text, e.g.: *New Life in America No Longer Means a New Name*
 - topic: [string] category which should be chosen by the classificator, e.g: *Sports*

Run Code Online (Sandbox Code Playgroud)

此外,还有一个表格托架,其中包含有关字频率的信息:

 - word: [string] a word which the frequencies are given for, e.g.: *real estate*
 - topic: [string] same content as "topic" field above, e.h. *Economics*
 - count: [integer] number of occurrences of …

Run Code Online (Sandbox Code Playgroud)

php text classification linguistics bayesian

caw*_*caw

2010 08-27

6
推荐指数

1
解决办法

2759
查看次数

什么是一个很好的开源软件包,用于在大型Rails站点上构建灵活的垃圾邮件检测？

我的网站越来越大,它开始通过各种渠道吸引大量垃圾邮件.该网站有许多不同类型的UGC(个人资料,论坛,博客评论,状态更新,私人消息等).我正在进行各种缓解措施,我希望以闪电般的方式进行部署,以使垃圾邮件发送者相信我们不是一个有价值的目标.我对我正在做的功能有很高的信心,但是一个缺失的部分就是一次性杀死所有旧的垃圾邮件.

这就是我所拥有的:

大的好/坏语料库(5位数不好,6或7位数字好).很多垃圾邮件都有非常可靠的指纹,事实上我已经忽略它6个月有助于:)
部署到AWS的大型模块化Rails站点.它不是一个巨大的流量站点,但我们在SOA的开始运行8个实例.
Ruby,Redis,Resque,MySQL,Varnish,Nginx,Unicorn,Chef,都在Gentoo上

我的要求:

我希望它在数据量方面表现得相当好(因此我对纯ruby解决方案持谨慎态度).
我应该能够针对不同类型的内容训练多种分类(419-scam vs僵尸网络链接垃圾邮件)
我希望能够根据我们自己的侦探工作(模式匹配,IP重用等)添加手动因素
最终我想构建一个与Ruby一起使用的漂亮接口.如果这需要我的手弄脏C或其他什么,我可以处理它,但如果可以的话我会避免它.

我意识到这是一个漫长而模糊的问题,但我正在寻找的主要是一个好的包列表,其次是来自某个人的随机想法,这些人建立了一个类似的方法来处理它.

ruby linux soa spam bayesian

gtd*_*gtd

lucky-day

6
推荐指数

1
解决办法

489
查看次数

文本分类到类别

我正在研究文本分类问题,我正在尝试将一组单词分类为类别,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答.

让我解释一下我想要实施的内容.(以身份为例)

单词列表:

java的
程序设计
语言
C-尖锐

类别清单.

java的
C-尖锐

在这里我们将训练该组,如:

java映射到类别1. java
编程映射到类1.java
编程映射到类别2.c-sharp
语言映射到类1.java
语言映射到类别2.c-sharp
c-sharp映射到类别2.c-sharp

现在我们有一个短语" 最好的java编程书 "来自给定的短语,下面的单词与我们的"单词列表"匹配.:

java的
程序设计

"编程"有两个映射类别"java"和"c-sharp",因此它是一个常用词.

"java"仅映射到"java"类别.

所以这个短语的匹配类别是"java"

这就是我想到的,这个解决方案很好,可以实现,你的建议是什么,我错过的任何东西,缺陷等等.

classification machine-learning bayesian

Aja*_*eja

2011 11-16

6
推荐指数

1
解决办法

5300
查看次数

朴素的贝叶斯和零频率问题

我想我已经正确实施了大部分内容.一部分让我困惑:

零频率问题:当每个类值没有出现属性值时,为每个属性值类组合(拉普拉斯估计器)的计数加1.

这是我的一些客户端代码:

//Clasify
string text = "Claim your free Macbook now!";
double posteriorProbSpam = classifier.Classify(text, "spam");
Console.WriteLine("-------------------------");
double posteriorProbHam = classifier.Classify(text, "ham");

Run Code Online (Sandbox Code Playgroud)

现在说某些地方的训练数据中有"免费"这个词

//Training
classifier.Train("ham", "Attention: Collect your Macbook from store.");
*Lot more here*
classifier.Train("spam", "Free macbook offer expiring.");

Run Code Online (Sandbox Code Playgroud)

但是这个词出现在我的"垃圾邮件"类别的培训数据中,而不是"火腿".所以当我去计算posteriorProbHam时,当我遇到"免费"这个词时我该怎么办.

在此输入图像描述

algorithm machine-learning spam-prevention bayesian

Sci*_*ion

2012 08-28

6
推荐指数

1
解决办法

4858
查看次数

R：了解MCMCglmm的输出

我执行了MCMCglmm（MCMCglmm封装）。这是此模型的摘要

 Iterations = 3001:12991
 Thinning interval  = 10
 Sample size  = 1000 

 DIC: 211.0108 

 G-structure:  ~Region

       post.mean  l-95% CI u-95% CI eff.samp
Region    0.2164 5.163e-17    0.358     1000

 R-structure:  ~units

      post.mean l-95% CI u-95% CI eff.samp
units    0.5529   0.1808    1.045    449.3

 Location effects: Abondance ~ Human_impact/Fish.sp 

                                   post.mean  l-95% CI  u-95% CI eff.samp  pMCMC    
(Intercept)                         1.335628  0.780363  1.907249    642.4  0.004 ** 
Human_impact                        0.005781 -0.294084  0.347743    876.6  0.914    
Human_impact:Fish.spA. perideraion -0.782846 -1.158798 -0.399131    649.9 <0.001 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ …

Run Code Online (Sandbox Code Playgroud)

statistics r bayesian linear-regression

Rem*_*i.b

2014 01-08

6
推荐指数

1
解决办法

6714
查看次数

python中的文本分类 - (基于NLTK句子)

我需要对文本进行分类,我正在使用Text blob python模块来实现它.我可以使用朴素贝叶斯分类器/决策树.我担心下面提到的几点.

1)我需要将句子分类为参数/不是参数.我使用两个分类器并使用apt数据集训练模型.我的问题是关于我是否需要仅使用关键字训练模型？或者我可以用所有可能的参数和非参数样本句子训练数据集？哪个是文本分类准确性和检索时间方面的最佳方法？

2)由于分类是参数/不是参数,哪个分类器可以获取精确的结果？这是朴素贝叶斯/决策树/积极朴素的贝叶斯？

提前致谢.

python classification machine-learning bayesian python-3.x

sre*_*ram

2014 04-20

6
推荐指数

1
解决办法

1071
查看次数

pymc3:具有多个obsesrved变量的分层模型

我有一个简单的分层模型,有很多个人,我从正态分布中得到小样本.这些分布的均值也遵循正态分布.

import numpy as np

n_individuals = 200
points_per_individual = 10
means = np.random.normal(30, 12, n_individuals)
y = np.random.normal(means, 1, (points_per_individual, n_individuals))

Run Code Online (Sandbox Code Playgroud)

我想使用PyMC3从样本中计算模型参数.

import pymc3 as pm
import matplotlib.pyplot as plt

model = pm.Model()
with model:
    model_means = pm.Normal('model_means', mu=35, sd=15)

    y_obs = pm.Normal('y_obs', mu=model_means, sd=1, shape=n_individuals, observed=y)

    trace = pm.sample(1000)

pm.traceplot(trace[100:], vars=['model_means'])
plt.show()

Run Code Online (Sandbox Code Playgroud)

我期待后面model_means看起来像我原来的手段分布.但它似乎趋同于30手段的意思.如何从pymc3模型中恢复均值(我的例子中为12)的原始标准偏差？

bayesian mcmc pymc3

Dan*_*anT

2015 11-12

6
推荐指数

1
解决办法

1173
查看次数

使用MCMCglmm的R中的贝叶斯误差变量(总最小二乘)模型

我正在使用MCMCglmm包中的一些贝叶斯线性混合模型R.我的数据包括使用错误测量的预测变量.因此,我想建立一个考虑到这一点的模型.我的理解是,基本的混合效应模型MCMCglmm将仅对响应变量(如ols回归)中的误差最小化.换句话说,垂直误差将被最小化.我想最小化与回归线/平面/超平面正交的误差.

是否可以使用MCMCglmm或者我必须使用JAGS/STAN来进行变量误差(也就是总最小二乘)模型？
是否可以在同一模型中使用多个预测变量来实现这一点(我有一些模型有3个或4个预测变量,每个模型都有误差测量)？
如果可能,我该如何指定模型？

我在下面列出了一个数据集,其中一个随机变量height用错误来衡量,以说明基本设置MCMCglmm.

library(nlme)
library(MCMCglmm)

data(Orthodont)

set.seed(1234)

Orthodont$height <- c(rnorm(54, 170, 10), rnorm(54, 150, 10))

prior1 <- list(
    B = list(mu = rep(0, 3), V = diag(1e+08, 3)), 
    G = list(G1 = list(V = 1, nu = 1, alpha.mu = 0, alpha.V = 1000)), 
    R = list(V = 1, nu = 0.002)
)

model1 <- MCMCglmm(
    fixed = distance ~ height + Sex,   
    random …

Run Code Online (Sandbox Code Playgroud)

r bayesian linear-regression mcmc mixed-models

Alb*_*rto

lucky-day

6
推荐指数

0
解决办法

432
查看次数