标签: text-mining

使用 Tidytext 进行文本挖掘:pairwise_count 和 pairwise_cor 问题

我正在试验 Tidytext(使用 R 进行文本挖掘),我想使用 widyr 库中的 pairwise_count 和 pairwise_cor 函数。我的语料库来自一个经过处理的文本文件。

library(readr)
library(dplyr)
library(tidytext)
library(widyr)

set.seed(2017)

Korpus <- read_file("/home/knecht/korpus.res")
print(Korpus)

Korpus_DF <-data_frame(document= 1, text=Korpus)

spon_words <- Korpus_DF %>%
  unnest_tokens(word, text)
print(spon_words)

spon_words %>%
  count(word, sort=TRUE)

word_cors <- spon_words %>%
  group_by(word) %>%
 filter(n()>= 10) %>%
  pairwise_cor(word, document, sort = TRUE, upper= FALSE)
word_cors

pair_test <- spon_words %>%
  pairwise_count(word, document)
print(pair_test)
Run Code Online (Sandbox Code Playgroud)

我想,我没有得到正确的结果,因为语料库包含多个短语,如“spiegel online”或“spiegel plus”短语,但这些短语没有出现在结果表中:

> library(readr)

> library(dplyr)

> library(tidytext)

> library(widyr)

> set.seed(2017)

> Korpus <- read_file("/home/knecht/korpus.res")

> print(Korpus)
[1] "29.12.2017 17:24:57 …
Run Code Online (Sandbox Code Playgroud)

r text-mining tidytext

1
推荐指数
1
解决办法
1122
查看次数

AttributeError: 模块 'urllib3' 没有属性 'urlretrieve'

我正在尝试使用此链接中的代码通过 keras 执行 word2vec。

我在这一行收到错误:

filename, _ = urllib.urlretrieve(url + filename, filename)
Run Code Online (Sandbox Code Playgroud)

错误是:

AttributeError: 模块 'urllib' 没有属性 'urlretrieve'

为了解决它,我安装并导入了 urllib3 并将该行更改为:

filename, _ = urllib3.urlretrieve(url + filename, filename)
Run Code Online (Sandbox Code Playgroud)

但我再次收到该错误:

AttributeError: 模块 'urllib3' 没有属性 'urlretrieve'

我该如何解决?

python urllib text-mining

1
推荐指数
1
解决办法
7998
查看次数

'Word2Vec' 对象没有属性 'index2word'

我在python的以下代码中收到此错误“AttributeError:'Word2Vec'对象没有属性'index2word'”。有谁知道我该如何解决?实际上“tfidf_weighted_averaged_word_vectorizer”会引发错误。“obli.csv”包含句子行。谢谢你。

from feature_extractors import tfidf_weighted_averaged_word_vectorizer

    dataset = get_data2()
    corpus, labels = dataset.data, dataset.target
    corpus, labels = remove_empty_docs(corpus, labels)
    # print('Actual class label:', dataset.target_names[labels[10]])

    train_corpus, test_corpus, train_labels, test_labels = prepare_datasets(corpus,
                                                                            labels,
                                                                            test_data_proportion=0.3)
    tfidf_vectorizer, tfidf_train_features = tfidf_extractor(train_corpus)


    vocab = tfidf_vectorizer.vocabulary_
        tfidf_wv_train_features = tfidf_weighted_averaged_word_vectorizer(corpus=tokenized_train,
                                                                          tfidf_vectors=tfidf_train_features,
                                                                          tfidf_vocabulary=vocab,
                                                                          model=model,
                                                                          num_features=100)



    def get_data2():

        obli = pd.read_csv('db/obli.csv').values.ravel().tolist()
        cl0 = [0 for x in range(len(obli))]

        nonObli = pd.read_csv('db/nonObli.csv').values.ravel().tolist()
        cl1 = [1 for x in range(len(nonObli))]

        all = obli + nonObli


        db =  Db(all,cl0 + cl1)
        db.data = all …
Run Code Online (Sandbox Code Playgroud)

text-mining python-3.x word2vec

1
推荐指数
1
解决办法
2237
查看次数

0
推荐指数
1
解决办法
3141
查看次数

如何从网页中提取文本内容?

我正在开发一个java应用程序,它可以从不同的网页中获取文本信息,并将其汇总成一个页面.例如,假设我在不同的网页上有新闻,如印度教,印度时报,政治家等.现在我的应用程序应该从这些页面的每一个中提取重要点,并将它们作为单个新闻组合在一起.应用程序基于Web内容挖掘的概念.作为该领域的初学者,我无法理解从哪里开始我已经通过研究论文解释了噪声去除作为建立这个应用程序的第一步.

所以,如果给我一个新闻网页,第一步是从页面中提取主要新闻,不包括超链接,广告,无用图像等.我的问题是我该怎么做?请给我一些很好的教程,解释使用Web内容挖掘实现这种应用程序.或者至少给我一些提示如何实现它?

java text-mining web-scraping web-mining web

0
推荐指数
1
解决办法
2827
查看次数

根据复述检测查找类似的文本

我有兴趣根据释义找到类似的内容(文本).我该怎么做呢?有没有特定的工具可以做到这一点?在python中最好.

nlp text-mining nltk semantic-analysis

0
推荐指数
1
解决办法
1535
查看次数

R中的文本挖掘搭配包

嗨,在R中有一个包有助于在python NLTK pakage中找到类似于搭配的单词的共同作用.给出一个语料库列表所有的共同作用词对

r text-mining

0
推荐指数
1
解决办法
1163
查看次数

对类似的词进行分类

我目前正在做一个文本处理过程,我希望将类似的单词(表格,表格等)转换成一个单词(表格).我看到tm包提供了一个工具,但这个不支持我正在寻找的语言.因此,我想自己创造一些东西.

对于我希望有一个链接表的函数 - >

 a <- c("Table", "Tables", "Tree", "Trees")
 b <- c("Table", "Tree", "Chair", "Invoice")
 df <- data.frame(b, a)
Run Code Online (Sandbox Code Playgroud)

这样我就可以自动将所有"表"值转换为"表"

有关如何做到这一点的任何想法?

r text-mining

0
推荐指数
1
解决办法
510
查看次数

在文字中查找日期

我想在文档中找到日期。

并以数组形式返回此Date。

假设我有这段文字:

On the 03/09/2015 I am swiming in a pool, that was build on the 27-03-1994
Run Code Online (Sandbox Code Playgroud)

现在我的代码应该返回['03/09/2015','27-03-1994']一个数组中的两个Date对象。

我的想法是使用正则表达式解决此问题,但该方法search()仅返回一个结果,并且test()只能测试字符串!

您将如何解决?特别是当您不知道日期的确切格式时?谢谢

javascript regex text-mining node.js

0
推荐指数
1
解决办法
3558
查看次数

将topicmodels输出转换为JSON

我使用以下函数将topicmodels输出转换为JSON输出以在ldavis中使用.

topicmodels_json_ldavis <- function(fitted, corpus, doc_term){
     ## Required packages
     library(topicmodels)
     library(dplyr)
     library(stringi)
     library(tm)
     library(LDAvis)

     ## Find required quantities
     phi <- posterior(fitted)$terms %>% as.matrix
     theta <- posterior(fitted)$topics %>% as.matrix
     vocab <- colnames(phi)
     doc_length <- vector()
     for (i in 1:length(corpus)) {
          temp <- paste(corpus[[i]]$content, collapse = ' ')
          doc_length <- c(doc_length, stri_count(temp, regex = '\\S+'))
     }
     temp_frequency <- inspect(doc_term)
     freq_matrix <- data.frame(ST = colnames(temp_frequency),
                               Freq = colSums(temp_frequency))
     rm(temp_frequency)

     ## Convert to json
     json_lda <- LDAvis::createJSON(phi = phi, theta = theta,
                                    vocab = …
Run Code Online (Sandbox Code Playgroud)

text-mining lda topic-modeling

0
推荐指数
1
解决办法
1474
查看次数