标签: text-analysis

csvIterator的参数在Mallet中意味着什么?

我正在使用mallet主题建模示例代码,虽然它运行正常,但我想知道这个语句的参数究竟是什么意思?

instances.addThruPipe(new CsvIterator(new FileReader(dataFile),
                                      "(\\w+)\\s+(\\w+)\\s+(.*)",
                                      3, 2, 1)  // (data, target, name) field indices                    
                     );
Run Code Online (Sandbox Code Playgroud)

nlp machine-learning text-analysis mallet topic-modeling

4
推荐指数
1
解决办法
602
查看次数

用golang从PDF中提取单词?

我不明白类型转换.我知道这是不对的,我得到的只是一堆象形文字.

f, _ := os.Open("test.pdf") defer f.Close() io.Copy(os.Stdout, f)

我想用字符串....

pdf text-analysis go

4
推荐指数
3
解决办法
1万
查看次数

如何解决以下错误?输入必须是任意长度的字符向量或字符向量列表,每个字符向量的长度为1.

我正在研究一个R项目.我使用的数据集可从以下链接获得 :https://www.kaggle.com/ranjitha1/hotel-reviews-city-chennai/data

我使用的代码是.

df1 = read.csv("chennai.csv", header = TRUE)
library(tidytext)
tidy_books <- df1 %>% unnest_tokens(word,Review_Text)
Run Code Online (Sandbox Code Playgroud)

这里Review_Text是文本列.然而,我得到以下错误.

Error in check_input(x) : 
Input must be a character vector of any length or a list of character
vectors, each of which has a length of 1.
Run Code Online (Sandbox Code Playgroud)

r text-analysis sentiment-analysis

4
推荐指数
1
解决办法
1万
查看次数

术语聚类库?

有没有人知道一个开源\免费库,它可以进行术语聚类?

谢谢,yaniv

text-processing information-retrieval text-analysis text-mining

3
推荐指数
1
解决办法
433
查看次数

java中Tf Idf的任何教程或代码

我正在寻找一个可以计算tf-idf计算的简单java类.我想对2个文件进行相似性测试.我找到了很多使用tf-idf类的BIG API.我不想使用大的jar文件,只是为了做我的简单测试.请帮忙 !或者至少如果有人可以告诉我如何找到TF?和以色列国防军?我会计算结果:)或者如果你能告诉我一些很好的java教程.请不要告诉我看谷歌,我已经做了3天,找不到任何东西:(也请不要把我推荐给Lucene :(

java lucene search text-analysis

3
推荐指数
1
解决办法
1万
查看次数

如何检测文本文档中的重复项并返回重复项的相似性?

我正在编写一个爬虫来获取某些网站的内容,但内容可以重复,我想避免这种情况.所以我需要一个函数可以在两个文本之间返回相同的百分比来检测两个内容可能重复示例:

  • 文字1:"我正在写一个爬虫"
  • 文字2:"我正在写一些文字抓取工具来获取"

比较函数将文本2作为相同的文本1返回5/8%(其中5是文本的字数2相同的文本1(按字顺序比较),8是文本2的总字数).如果删除"some text",则将文本2作为相同的文本1(我需要检测情况).我该怎么做?

algorithm information-retrieval text-analysis

3
推荐指数
1
解决办法
1789
查看次数

如何在R中将文本拆分为两个有意义的单词

这是我的dataframe df中的文本,其中有一个名为'problem_note_text'的文本列

SSCIssue:注意分配器故障执行检查/分配器故障/要求商店取出纸币分配器并将其设置回/仍然错误消息说前门打开/因此CE attn reqContact详细信息 - Olivia taber 01159063390/7 am-11pm

df$problem_note_text <- tolower(df$problem_note_text)
df$problem_note_text <- tm::removeNumbers(df$problem_note_text)
df$problem_note_text<- str_replace_all(df$problem_note_text, "  ", "") # replace double spaces with single space
df$problem_note_text = str_replace_all(df$problem_note_text, pattern = "[[:punct:]]", " ")
df$problem_note_text<- tm::removeWords(x = df$problem_note_text, stopwords(kind = 'english'))
Words = all_words(df$problem_note_text, begins.with=NULL)
Run Code Online (Sandbox Code Playgroud)

现在有一个数据框,其中包含一个单词列表,但有一些单词

"Failureperformed"

需要分成两个有意义的词,比如

"失败""表演".

我该怎么做呢,dataframe这个词也包含像

"im","h"

哪些没有意义,必须删除,我不知道如何实现这一点.

r text-analysis stemming string-split

3
推荐指数
1
解决办法
1110
查看次数

difflib.get_close_matches获取分数

我正在尝试使用以下方法获得最佳比赛的分数difflib.get_close_matches

import difflib

best_match = difflib.get_close_matches(str,str_list,1)[0]
Run Code Online (Sandbox Code Playgroud)

我知道添加' cutoff'参数的选项,但是在设置阈值后找不到如何获得实际分数。我想念什么吗?有没有更好的解决方案来匹配unicode字符串?

text text-analysis python-2.7

3
推荐指数
1
解决办法
7190
查看次数

使用quanteda逐步创建dfm

我想分析一个大的(n = 500,000)文档语料库.我使用quanteda的期望 会更快tm_map()tm.我想一步一步而不是使用自动化方式dfm().我有理由这样做:在一种情况下,我不想在删除停用词之前进行标记化,因为这会导致许多无用的双字母组合,在另一种情况下,我必须使用特定于语言的过程预处理文本.

我想要实现这个序列:
1)删除标点符号和数字
2)删除停用词(即在标记化之前避免无用的标记)
3)使用unigrams和bigrams标记化
4)创建dfm

我的尝试:

> library(quanteda)
> packageVersion("quanteda")
[1] ‘0.9.8’
> text <- ie2010Corpus$documents$texts
> text.corpus <- quanteda:::corpus(text, docnames=rownames(ie2010Corpus$documents))

> class(text.corpus)
[1] "corpus" "list"

> stopw <- c("a","the", "all", "some")
> TextNoStop <- removeFeatures(text.corpus, features = stopw)
# Error in UseMethod("selectFeatures") : 
# no applicable method for 'selectFeatures' applied to an object of class "c('corpus', 'list')"

# This is how I would theoretically continue: 
> …
Run Code Online (Sandbox Code Playgroud)

r text-analysis term-document-matrix quanteda

3
推荐指数
1
解决办法
6117
查看次数

超越 SOUNDEX 和差异 - SQL Server

我正在使用SOUNDEX&DIFFERENCE函数对表中的数据进行一些分析。

但此功能在以下类型的数据上失败。&完全不同ITEM TYPEITEM SIZE

SELECT SOUNDEX('ITEM TYPE'), SOUNDEX('ITEM SIZE')

op:-

I350    I350

For DIFFERENCE op: - 4
Run Code Online (Sandbox Code Playgroud)

我理解人类思维所做的每一项分析都无法编码​​,但我仍然想问,是否存在其他功能SQL Server可以帮助我进行下一级分析?

sql sql-server analysis text-analysis

3
推荐指数
1
解决办法
3572
查看次数