标签: corpus

R语料库正在弄乱我的UTF-8编码文本

我只是试图用俄语,UTF-8编码的文本创建一个语料库.问题是,tm包中的Corpus方法没有正确编码字符串.

这是我的问题的可重现的例子:

加载俄文文本:

> data <- c("Renault Logan, 2005","????????? ?????????, 345 ?²",
          "??-???","3-? ????????, 64 ?², 3/5 ??.","Samsung galaxy S4 mini GT-I9190 (??????)")
Run Code Online (Sandbox Code Playgroud)

创建一个VectorSource:

> vs <- VectorSource(data)
> vs # outputs correctly
Run Code Online (Sandbox Code Playgroud)

然后,创建语料库:

> corp <- Corpus(vs)
> inspect(corp) # output is not encoded properly
Run Code Online (Sandbox Code Playgroud)

我得到的输出是:

> inspect(corp)
<<VCorpus (documents: 5, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
Renault Logan, 2005

[[2]]
<<PlainTextDocument (metadata: 7)>>
Ñêëàäñêîå ïîìåùåíèå, 345 ì<U+00B2>

[[3]]
<<PlainTextDocument (metadata: 7)>>
Ñó-øåô

[[4]]
<<PlainTextDocument (metadata: …
Run Code Online (Sandbox Code Playgroud)

encoding r utf-8 corpus tm

3
推荐指数
1
解决办法
8534
查看次数

NLTK布朗语料库标签

当我打印时,nltk.corpus.brown.tagged_words()它打印大约1161192个元组及其相关标签.

我想区分具有不同不同标签的不同字母.一个单词可以有多个标签.

按可用连字符的数量附加列表项我尝试使用此线程的每个代码,但我没有得到任何超过3个标签的单词.据我所知,甚至还有8或9个标签.

我的做法哪里错了?怎么解决这个?我有两个不同的问题:

  1. 如何在不同的不同标签下弄清楚语料库的不同单词的数量?语料库中的不同单词的数量让我们说8个不同的标签.

  2. 同样,我想知道具有最多不同标签的单词.

而且,我只对单词感兴趣.我正在删除标点符号.

python nlp corpus nltk

3
推荐指数
1
解决办法
5039
查看次数

为什么使用Europarl对摩西有如此糟糕的表现?

我已经开始和摩西一起玩,并试图制作我认为相当标准的基线系统.我基本上遵循了网站上描述的步骤,但不是使用news-commentary我使用Europarl v7进行培训,使用WMT 2006开发套件和原始的Europarl常用测试.我的想法是做一些类似于Le Nagard&Koehn(2010)的事情,他们在基线英语到法语系统中获得了.68的BLEU分数.

总而言之,我的工作流程或多或少是这样的:

  1. tokenizer.perl 关于一切
  2. lowercase.perl(而不是truecase)
  3. clean-corpus-n.perl
  4. 仅使用Europarl v7的法国数据训练IRSTLM模型
  5. train-model.perl 完全如描述
  6. mert-moses.pl 使用WMT 2006开发
  7. 如上所述测试和测量性能

由此产生的BLEU得分为.26 ......这引出了两个问题:

  • 这是这种基线系统的典型BLEU分数吗?我意识到Europarl是一个非常小的语料库来训练单语言模型,尽管这是他们在摩西网站上做事的方式.
  • 对于刚开始使用SMT和/或摩西的人来说,我是否有任何典型的陷阱?或者像Le Nagard和Koehn这样的研究人员是否以与摩西网站上描述的方式不同的方式构建他们的基线系统,例如使用一些更大的,未公开的语料库来训练语言模型?

corpus machine-translation moses bleu

3
推荐指数
1
解决办法
521
查看次数

包tm:removeWords如果指定,如何避免删除CERTIAN(具体否定)"英语"停用词?

我想通过以下方式使用removeWords(stopwords("english"))函数:corpus <- tm_map(corpus,removeWords, stopwords("english"))但是有些像"不"这样的词,以及其他我想保留的否定.

是否可以使用该removeWords, stopwords("english")功能但如果指定,则排除该列表中的某些单词?

我怎么能阻止删除"不"例如?

(二级)是否可以将此类控制列表设置为所有"否定"?

我宁愿不使用我感兴趣的停止列表中的单词来创建我自己的自定义列表.

r corpus stop-words tm

3
推荐指数
1
解决办法
2532
查看次数

根据文本文件的内容对语料库进行子集化

我正在使用 R 和 tm 包进行一些文本分析。我试图根据是否在各个文本文件的内容中找到某个表达式来构建语料库的子集。

我创建了一个包含 20 个文本文件的语料库(感谢 lukeA 提供的这个示例):

reut21578 <- system.file("texts", "crude", package = "tm")
corp <- VCorpus(DirSource(reut21578), list(reader = readReut21578XMLasPlain))
Run Code Online (Sandbox Code Playgroud)

我现在只想选择那些包含字符串“priceduction”的文本文件来创建子集语料库。

检查文档的第一个文本文件,我知道至少有一个文本文件包含该字符串:

writeLines(as.character(corp[1]))
Run Code Online (Sandbox Code Playgroud)

我最好怎样做呢?

r corpus tm

3
推荐指数
1
解决办法
1752
查看次数

在 python 2.7.3 中使用 Wordnet API 时出现属性错误

nltk我在 python 2.7.3 上使用 pip install安装。当我运行这些命令时

import nltk
from nltk.corpus import wordnet as wn
dog = wn.sysnet('dog.n.01')
Run Code Online (Sandbox Code Playgroud)

我收到以下错误..

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python27\lib\site-packages\nltk\corpus\util.py", line 71, in __getattr__
return getattr(self, attr)
AttributeError: 'WordNetCorpusReader' object has no attribute 'sysnet'
Run Code Online (Sandbox Code Playgroud)

我该如何纠正呢?

corpus wordnet python-2.7

2
推荐指数
1
解决办法
1472
查看次数

R的tm包用于字数统计

我有一个包含超过5000个文本文件的语料库.我想在每个文件运行预处理之后获得每个文件的单个字数(转向更低,删除停用词等).我对单个文本文件的单词计数没有任何好运.任何帮助,将不胜感激.

library(tm)
revs<-Corpus(DirSource("data/")) 
revs<-tm_map(revs,tolower) 
revs<-tm_map(revs,removeWords, stopwords("english")) 
revs<-tm_map(revs,removePunctuation) 
revs<-tm_map(revs,removeNumbers) 
revs<-tm_map(revs,stripWhitespace) 
dtm<-DocumentTermMatrix(revs) 
Run Code Online (Sandbox Code Playgroud)

r text-analysis corpus word-count tm

2
推荐指数
2
解决办法
2万
查看次数

Google图书的热门文章功能是如何开发的?

我很好奇,如果有人理解,知道或可以指向我关于谷歌如何创建他们的流行通道块功能的综合文献或源代码.但是,如果您知道任何其他可以执行相同操作的应用程序,请发布您的答案.

如果您不知道我在写什么,这里有一个热门通道示例链接.当您查看" 信息技术应用程序的法律决策过程建模 "一书的概述时......通过Georgios N. Yannopoulos,您可以看到如下内容:

热门段落

......方向,不确定.我们还没有解决,因为我们没有预料到,这个问题会在未经审理的案件发生时提出; 公园的某种程度的和平是否应该牺牲或捍卫那些使用这些东西的乐趣或兴趣的孩子.当出现未经审查的案件时,我们就会面临利害攸关的问题,然后通过在最能满足我们的方式中选择竞争利益来解决问题.在做什么...... 第86页

出现在1968年至2003年的15本书中

这将是适合"机械"法理学的世界.显然,这个世界不是我们的世界; 人类立法者无法了解未来可能带来的所有可能的情况组合.这种无法预测会带来相对不确定性的目标.当我们大胆地进行框架的一些通用规则(例如,没有车辆可能是考虑到公园的规则),在这种情况下所使用的语言修复任何事物必须满足必要的条件... 第86页

出现在1968年至2000年的8本书中

更多

它必须是密集的模式匹配过程.我只能想到n-gram模型,文本语料库,自动plagisrism检测.但是,有时n-gram是用于预测序列中的下一个项目的概率模型,并且手动创建文本语料库(据我所知).而且,在这个特殊情况下,流行的段落,可能会有很多单词.

我真的迷路了.如果我想创建这样的功能,我应该如何或在哪里开始?另外,在你的回复中包含哪些编程语言最适合这些东西:F#或任何其他功能性语言,PERL,Python,Java ......(我自己也成为了F#粉丝)

PS:有人可以包含标签自动抄袭检测,因为我不能

text-processing pattern-recognition corpus n-gram plagiarism-detection

1
推荐指数
1
解决办法
465
查看次数

如何在nltk中用hunpos标记文本文件?

有人可以帮我用hunpos标记nltk中的语料库的语法吗?

  1. 我要为hunpos.HunPosTagger模块导入什么?

  2. 我如何HunPosTag语料库?请参见下面的代码。


import nltk 
from nltk.corpus import PlaintextCorpusReader  
from nltk.corpus.util import LazyCorpusLoader  

corpus_root = './'  
reader = PlaintextCorpusReader (corpus_root, '.*')  

ntuen = LazyCorpusLoader ('ntumultien', PlaintextCorpusReader, reader)  
ntuen.fileids()  
isinstance (ntuen, PlaintextCorpusReader)  


# So how do I hunpos tag `ntuen`? I can't get the following code to work.
# please help me to correct my python syntax errors, I'm new to python 
# but i really need this to work. sorry
##from nltk.tag import hunpos.HunPosTagger
ht = HunPosTagger('english.model') …
Run Code Online (Sandbox Code Playgroud)

python corpus nltk pos-tagger

0
推荐指数
1
解决办法
1539
查看次数

使用R进行文本挖掘Reuters-21578

我正在尝试使用众所周知的Reuters-21578数据集进行一些工作,并且在将sgm文件加载到我的语料库时遇到了一些麻烦.

现在我正在使用该命令

require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML))
Run Code Online (Sandbox Code Playgroud)

试图将所有文件都包含在我的语料库中,但这会给我以下错误:

Error in DirSource(reut21578) : empty directory
Run Code Online (Sandbox Code Playgroud)

知道我可能会出错吗?

r corpus reuters tm

0
推荐指数
1
解决办法
4289
查看次数

如何在 R 中“拆分”文本文档或文本字符串,以便每个单词在数据框中都有自己的行?

documents <- c("This is document number one", "document two is the second element of the vector")
Run Code Online (Sandbox Code Playgroud)

我试图创建的数据框是:

idealdf <- c("this", "is", "document", "number", "one", "document", "two", "is", "the", "second", "element", "of", "the", "vector") 
Run Code Online (Sandbox Code Playgroud)

我一直在使用 tm 包将我的文档转换为语料库,并通过以下功能去除标点符号、转换为小写字母等:

#create a corpus:
myCorpus <- Corpus(VectorSource(documents))

#convert to lowercase:
myCorpus <- tm_map(myCorpus, content_transformer(tolower))

#remove punctuation:
myCorpus <- tm_map(myCorpus, removePunctuation)
Run Code Online (Sandbox Code Playgroud)

...但我在尝试将其放入 df 时遇到了麻烦,其中每个单词都有自己的行(我更喜欢每个单词都有自己的行 - 即使同一个单词显示为多行)。

谢谢。

r corpus text-mining tm

0
推荐指数
1
解决办法
2948
查看次数

删除R中长度大于X的单词

在我删除标点符号,数字和非ASCII字符后的R编程中,我保留了许多带有长字符的单词:

ques1<-gsub("[[:digit:]]"," ", ques1,perl=TRUE)
ques1<-gsub("[[:punct:]]"," ", ques1,perl=TRUE)

ques1<-iconv(ques1, "latin1", "ASCII", sub=" ")
ques1<-rm_white(ques1)
ques1
Run Code Online (Sandbox Code Playgroud)

我检查了最长的字符长度是35

max(nchar(strsplit(ques1, " ")[[1]]))
[1] 35
Run Code Online (Sandbox Code Playgroud)

现在,我要删除包含10个以上字符的单词,因为我不希望使用这些单词,例如

wwwhotmailcomlearnbyexample
Run Code Online (Sandbox Code Playgroud)

请帮帮我!

regex r corpus gsub

-1
推荐指数
1
解决办法
1606
查看次数