标签: classification

我如何在名称,数字,金钱,日期等内容中对文字进行分类?

我在一周前做了一些关于文本挖掘的问题,但我有点困惑,但现在我知道我想做什么.

情况:我有很多带HTML内容的下载页面.例如,其中一些可以是来自博客的文本.它们不是结构化的,来自不同的网站.

我想做什么:我将用空白分割所有单词,我想在一些预先定义的内容中对每个单词或一组单词进行分类,如姓名,号码,电话,电子邮件,网址,日期,金钱,温度等.

我所知道的:我知道关于自然语言处理,命名实体重新接收器,POSTagging,NayveBayesian,HMM,培训和许多要做分类的事情的概念/听说过,但是有一些不同的NLP库有不同的分类器和如何做到这一点,我不知道有什么用途或做什么.

我需要什么:我需要一些来自分类器,NLP的代码示例,无论如何,它可以对文本中的每个单词进行分类,而不是整个文本.像这样的东西:

//This is pseudo-code for what I want, and not a implementation

classifier.trainFromFile("file-with-train-words.txt");
words = text.split(" ");
for(String word: words){
    classifiedWord = classifier.classify(word);
    System.out.println(classifiedWord.getType());
}
Run Code Online (Sandbox Code Playgroud)

有人可以帮帮我吗?我对各种API,分类器和算法感到困惑.

java nlp classification named-entity-recognition text-mining

1
推荐指数
1
解决办法
7067
查看次数

Facebook反向时间顺序.评论

在链接中:https: //developers.facebook.com/docs/plugins/ 在评论中他给出了以下代码:

<script>
    (function (d, s, id) {
        var js = d.getElementsByTagName FJS (s) [0];
        if (d.getElementById (id)) return;
        js = d.createElement (s);
        js.id = id;
        js.src = "/ / connect.facebook.net / en_US / all.js XFBML # = 1";
        fjs.parentNode.insertBefore (js, FJS);
    }(document, 'script', 'facebook-jssdk'));
</script>
Run Code Online (Sandbox Code Playgroud)

使用此代码是社会分类的评论.我想知道.如何设置模式:反向时间顺序.

我的意图并创建一个应用领域•聊天频道内的一个物种.

保持当前评论更多始终在顶部而不是在下面.

非常感谢你的帮助.

PortuguêsBrasil:

Sei quetalveznãosejaaáreadevocês,massevocêspodemme ajudar ouinformaralguémqueposs ajudar.

没有链接 https://developers.facebook.com/docs/plugins/ em评论gera o seguinte codigo:

<script>
    (function(d, s, id) {
        var js, fjs = d.getElementsByTagName(s)[0];
        if (d.getElementById(id)) return;
        js = …
Run Code Online (Sandbox Code Playgroud)

javascript reverse facebook classification

1
推荐指数
1
解决办法
3730
查看次数

Nltk天真的贝叶斯分类器记忆问题

我的第一篇文章!我在使用nltk NaiveBayesClassifier时遇到了问题.我有7000个训练项目.每个培训项目都有2或3个世界的描述和代码.我想使用代码作为类的标签和描述的每个世界作为功能.一个例子:

"我叫奥巴马",001 ......

训练集= {[feature ['My'] = True,feature ['name'] = True,feature ['is'] = True,feature [Obama] = True],001}

不幸的是,使用这种方法,训练程序NaiveBayesClassifier.train使用高达3 GB的ram ..我的方法有什么问题?谢谢!

def document_features(document): # feature extractor
document = set(document)
return dict((w, True) for w in document)

...
words=set()
entries = []
train_set= []
train_length = 2000
readfile = open("atcname.pl", 'r')
t = readfile.readline()
while (t!=""):
  t = t.split("'")
  code = t[0] #class
  desc = t[1] # description
  words = words.union(s) #update dictionary with the new words in the description
  entries.append((s,code)) …
Run Code Online (Sandbox Code Playgroud)

python classification bayesian nltk

1
推荐指数
1
解决办法
1786
查看次数

机器学习克服错字错误

我有一份药物名称列表(crocin,seroflo,oxitab等).清单很长.现在假设我需要找到一个特定的药物是否存在未在列表中,但也有可能是错字errors.supposing我打算找藏花素在列表中,但我不是键入crosin.I想要的机器学习算法来克服我的这个印刷错误以及像crocin和crosin这样的小差异,它应该在匹配时返回

text classification machine-learning

1
推荐指数
1
解决办法
2283
查看次数

我可以使用NaiveBayesClassifier对两个以上的分类进行分类吗?

我在NaiveBayesClassifier中看到的大多数例子只有两个:'pos','neg'.我想谈谈文本的主题,如娱乐,体育,电影,政治,文学.可以为此训练NaiveBayesClassifier,还是应该在其他地方寻找?

python classification nltk

1
推荐指数
1
解决办法
2201
查看次数

垃圾邮件分类 - 机器学习

我必须使用一些分类器(例如Naive Bayes,SVM和另一个分类器)进行垃圾邮件检测应用程序并比较它们的效率但不幸的是我不知道我应该做什么.

这是正确的:首先我应该有语料库垃圾邮件,如trec2005,spamassasin或enron-spam.然后,我进行文本预处理,如词干,停止单词删除,标记化等.

之后,我可以使用tf-idf在垃圾邮件中测量我的功能/条款的权重.接下来,我以非常低和非常高的频率移除这些功能.然后我可以对我的电子邮件进行分类.对?

之后,我可以通过真阳性,假阳性等来衡量我的正确分类.

什么东西需要10倍交叉验证?我该怎么用?

你能告诉我这些电子邮件分类的步骤是否正常?如果没有,请解释垃圾邮件分类的正确步骤.

classification machine-learning spam-prevention

1
推荐指数
1
解决办法
3511
查看次数

是否可以将内核技巧应用于朴素贝叶斯算法?

我想为我的计算机科学论文改进一些关于朴素贝叶斯算法的东西,我正在阅读有关内核技巧以及它如何改进SVM和其他机器学习算法的内容.这一切都准备好了吗?任何其他方法来改善朴素贝叶斯算法或其他类别?

classification machine-learning bayesian-networks

1
推荐指数
1
解决办法
416
查看次数

核心PCA与Kernlab和结肠癌分类数据集

我需要在冒号 - 癌症 数据集上执行内核PCA :

然后

我需要用PCA数据绘制主成分数和分类精度.

对于第一部分,我在R中使用kernlab如下(让特征数量为2然后我将从2-100改变它)

kpc <- kpca(~.,data=data[,-1],kernel="rbfdot",kpar=list(sigma=0.2),features=2)
Run Code Online (Sandbox Code Playgroud)

我很难理解如何使用这个PCA数据进行分类(我可以使用任何分类器,例如SVM)

编辑:我的问题是如何将PCA的输出提供给分类器

数据看起来像这样(清理数据)

结肠癌清理数据

未清理的原始数据看起来像这样 结肠癌未清除的数据

statistics kernel r classification pca

1
推荐指数
1
解决办法
3531
查看次数

如何在tensorflow中为未分类的对象创建一个类?

嗨,我用两类猫和狗建立了CNN,我对此进行了训练,现在可以对猫和狗的图像进行分类了。但是,如果我想为新的未分类对象引入类呢?例如,如果我用鲜花图像为我的网络喂食,则网络会给我错误的分类。我想使用第三类为新的未分类对象构建网络。但是我该如何建立这个第三堂课。我必须使用哪些图像来获得不同于狗或猫的新对象的类?实际上,在我的网络末端,我使用Softmax,而我的代码是使用tensorflow开发的。有人可以给我一些建议吗?谢谢

classification object-detection deep-learning tensorflow

1
推荐指数
1
解决办法
1093
查看次数

如何在scikit-learn中使用k折交叉验证来获得每折的精确召回率?

假设我有这种情况:

from sklearn import model_selection
from sklearn.linear_model import LogisticRegression

kfold = model_selection.KFold(n_splits=5, random_state=7)
acc_per_fold = model_selection.cross_val_score(LogisticRegression(),
               x_inputs, np.ravel(y_response), cv=kfold, scoring='accuracy')
Run Code Online (Sandbox Code Playgroud)

我还能从中得到model_selection.cross_val_score()什么?有没有办法查看每个实际折痕内部发生的情况?我可以得到每折的精确召回率吗?预测值?如何使用训练有素的模型来对看不见的数据进行预测?

python classification machine-learning scikit-learn cross-validation

1
推荐指数
1
解决办法
644
查看次数