我正在学习NLP.我目前正在使用Word Sense Disambiguation.我打算使用semcor语料库作为训练数据,但我无法理解xml结构.我尝试使用谷歌搜索,但没有得到任何描述semcor内容结构的资源.
<s snum="1">
<wf cmd="ignore" pos="DT">The</wf>
<wf cmd="done" lemma="group" lexsn="1:03:00::" pn="group" pos="NNP" rdf="group" wnsn="1">Fulton_County_Grand_Jury</wf>
<wf cmd="done" lemma="say" lexsn="2:32:00::" pos="VB" wnsn="1">said</wf>
<wf cmd="done" lemma="friday" lexsn="1:28:00::" pos="NN" wnsn="1">Friday</wf>
<wf cmd="ignore" pos="DT">an</wf>
<wf cmd="done" lemma="investigation" lexsn="1:09:00::" pos="NN" wnsn="1">investigation</wf>
<wf cmd="ignore" pos="IN">of</wf>
<wf cmd="done" lemma="atlanta" lexsn="1:15:00::" pos="NN" wnsn="1">Atlanta</wf>
<wf cmd="ignore" pos="POS">'s</wf>
<wf cmd="done" lemma="recent" lexsn="5:00:00:past:00" pos="JJ" wnsn="2">recent</wf>
<wf cmd="done" lemma="primary_election" lexsn="1:04:00::" pos="NN" wnsn="1">primary_election</wf>
<wf cmd="done" lemma="produce" lexsn="2:39:01::" pos="VB" wnsn="4">produced</wf>
<punc>``</punc>
<wf cmd="ignore" pos="DT">no</wf>
<wf cmd="done" lemma="evidence" lexsn="1:09:00::" pos="NN" wnsn="1">evidence</wf>
<punc>''</punc>
<wf cmd="ignore" …
Run Code Online (Sandbox Code Playgroud) 在nltk书中,有一个问题“使用state_union语料库阅读器来阅读国情咨文中的文本。计算每个文档中男人,女人和人的出现。时间?”
我以为我可以使用像state_union('1945-Truman.txt')。count('men')之类的函数,但是,在此州联合会中有60多个文本,我觉得必须有一个更简单的方法来查看这些单词的计数是每个单词的数量,而不是一遍又一遍地重复此功能。
我正在使用tm包来应用词干,我需要将结果数据转换为数据帧.可以在这里找到解决方案R tm package vcorpus:将语料库转换为数据帧时出错,但在我的情况下,我将语料库的内容作为:
[[2195]]
i was very impress
Run Code Online (Sandbox Code Playgroud)
代替
[[2195]]
"i was very impress"
Run Code Online (Sandbox Code Playgroud)
因此,如果我申请
data.frame(text=unlist(sapply(mycorpus, `[`, "content")), stringsAsFactors=FALSE)
Run Code Online (Sandbox Code Playgroud)
结果将是
<NA>.
Run Code Online (Sandbox Code Playgroud)
任何帮助深表感谢!
以下代码为例:
sentence <- c("a small thread was loose on the sandals, otherwise it looked good")
mycorpus <- Corpus(VectorSource(sentence))
mycorpus <- tm_map(mycorpus, stemDocument, language = "english")
inspect(mycorpus)
[[1]]
a small thread was loo on the sandals, otherwi it look good
data.frame(text=unlist(sapply(mycorpus, `[`, "content")), stringsAsFactors=FALSE)
text
1 <NA>
Run Code Online (Sandbox Code Playgroud) 我正在寻找一个简单的俄语到英语单词语料库.它可以像csv一样简单,在第一列中列出俄语单词,在第二列中列出相应的英语单词.我能找到这样的想法吗?NLTK工具包有这样的东西吗?
谢谢
我正在尝试编写一个简单的文本挖掘应用程序来尝试分辨德语单词的性别和复数形式。
所以,首先,我需要一个大的单词表来进行训练。我四处搜寻,但找不到任何具有性别或复数的列表。
任何人都可以指出我用于分类的一些大型语料库吗?
但总的来说,我不是指路透社或 20 个新闻组,我指的是 GB 大小的语料库,而不是 20MB 或类似的东西。
我只能找到这个路透社和 20 个新闻组,这对于我需要的东西来说非常小。
我正在研究临床自然语言处理。是否有包含句子、患者病情、患者病史、临床术语等的临床报告?
对于所有其他 NLTK 语料库,调用会corpus.raw()
从文件中生成原始文本。例如:
>>> from nltk.corpus import webtext
>>> webtext.raw()[:10]
'Cookie Man'
Run Code Online (Sandbox Code Playgroud)
但是,当brown.raw()
您打电话时,您会收到带标签的文本。
>>> from nltk.corpus import brown
>>> brown.raw()[:10]
'\n\n\tThe/at '
Run Code Online (Sandbox Code Playgroud)
我已经阅读了我能找到的所有文档,但似乎找不到明显的解释或获取未标记版本的方法。是否有理由对这个语料库进行标记而其他语料库没有?
我正在使用 Gensim 进行向量空间模型。从 Gensim 创建字典和语料库后,我使用以下行计算了(术语频率*逆文档频率)TFIDF
Term_IDF = TfidfModel(corpus)
corpus_tfidf = Term_IDF[corpus]
Run Code Online (Sandbox Code Playgroud)
corpus_tfidf 包含具有术语 ID 和相应 TFIDF 的列表的列表。然后我使用以下几行将 TFIDF 与 id 分开:
for doc in corpus_tfidf:
for ids,tfidf in doc:
IDS.append(ids)
tfidfmtx.append(tfidf)
IDS=[]
Run Code Online (Sandbox Code Playgroud)
现在我想使用 k-means 聚类,所以我想执行 tfidf 矩阵的余弦相似性问题是 Gensim 不产生方阵,所以当我运行以下行时,它会产生错误。我想知道如何从 Gensim 获取方阵来计算向量空间模型中所有文档的相似性。还有如何将 tfidf 矩阵(在这种情况下是列表列表)转换为 2D NumPy 数组。任何评论都非常感谢。
dumydist = 1 - cosine_similarity(tfidfmtx)
我尝试使用R、jiebaR和语料库生成一个词云并获取中文语音的词频,但无法制作语料库。这是我的代码:
library(jiebaR)
library(stringr)
library(corpus)
cutter <- worker()
v36 <- readLines('v36.txt', encoding = 'UTF-8')
seg_x <- function(x) {str_c(cutter[x], collapse = '')}
x.out <- sapply(v36, seg_x, USE.NAMES = FALSE)
v36.seg <- x.out
v36.seg
library(quanteda)
corpus <- corpus(v36.seg) #Error begins here.
summary(corpus, showmeta = TRUE, 1)
texts(corpus)[1]
tokens(corpus, what = 'fasterword')[1]
tokens <- tokens(v36.seg, what = 'fasterword')
dfm <- dfm(tokens)
dfm
Run Code Online (Sandbox Code Playgroud)
我的文本文件包含以下段落:
当我创建语料库时出现错误。R 返回:
Error in corpus.default(v36.seg) :
corpus() only works on character, corpus, Corpus, data.frame, kwic objects.
Run Code Online (Sandbox Code Playgroud)
我不明白为什么文本有问题。如果您能帮我解决问题,我将不胜感激。谢谢。