标签: text-analysis

Stemmers vs Lemmatizers

自然语言处理(NLP),尤其是英语,已经发展成为如果存在"完美"的引理词,词干将成为一种古老技术的阶段.这是因为词干分析器将单词/标记的表面形式改变为一些无意义的词干.

然后,"完美"变形器的定义是值得怀疑的,因为不同的NLP任务需要不同级别的词形还原.例如,在动词/名词/形容词形式之间转换单词.

词干

[in]: having
[out]: hav
Run Code Online (Sandbox Code Playgroud)

Lemmatizers

[in]: having
[out]: have
Run Code Online (Sandbox Code Playgroud)
  • 所以问题是,英语词干器今天有用吗?因为我们有大量的英语词汇化工具

  • 如果不是,那么我们应该如何着手构建强大的lemmatizers可以取nounify,verbify,adjectifyadverbify 预处理?

  • 如何将词形还原任务轻松扩展到与英语具有相似形态结构的其他语言?

nlp text-analysis stemming wordnet lemmatization

71
推荐指数
2
解决办法
2万
查看次数

如何从一系列文本条目中提取常用/重要短语

我有一系列文本项 - 来自MySQL数据库的原始HTML.我想找到这些条目中最常见的短语(不是单个最常用的短语,理想情况下,不强制逐字逐句匹配).

我的例子是Yelp.com上的任何评论,它显示了来自特定餐厅的数百条评论的3个片段,格式如下:

"尝试汉堡包"(在44条评论中)

例如,本页的"评论亮点"部分:

http://www.yelp.com/biz/sushi-gen-los-angeles/

我已经安装了NLTK并且我已经玩了一些,但老实说我被选项所淹没.这似乎是一个相当普遍的问题,我无法通过在这里搜索找到一个简单的解决方案.

nlp text-extraction text-analysis nltk

63
推荐指数
4
解决办法
5万
查看次数

培训情绪分析数据

我在哪里可以获得已被归类为公司域中情绪的正面/负面的文档集?我想要一大堆文件,为公司提供评论,例如分析师和媒体提供的公司评论.

我发现有产品和电影评论的语料库.是否有业务领域的语料库,包括符合业务语言的公司评论?

nlp machine-learning text-analysis training-data sentiment-analysis

56
推荐指数
3
解决办法
4万
查看次数

如何从R中的ngram标记列表中有效地删除停用词

这是一个更好的方法来做一些我已经无法做到的事情的吸引力:使用"停用词"过滤一系列n-gram标记,以便n-gram中任何停用词术语的出现触发删除.

我非常希望有一个解决方案适用于unigrams和n-gram,虽然可以有两个版本,一个带有"固定"标志,另一个带有"正则表达式"标志.我将这个问题的两个方面放在一起,因为有人可能有一个解决方案尝试一种解决固定和正则表达式停用词模式的不同方法.

格式:

  • 标记是一个字符向量列表,可以是unigrams,也可以是由_(下划线)字符连接的n-gram .

  • 停用词是一个字符向量.现在我满足于让它成为一个固定的字符串,但是能够使用正则表达式格式化的停用词实现它将是一个很好的奖励.

期望输出:与输入标记匹配但与任何组件标记匹配的字符列表被删除.(这意味着unigram匹配,或与n-gram包含的术语之一匹配.)

构建的示例,测试数据以及工作代码和基准:

tokens1 <- list(text1 = c("this", "is", "a", "test", "text", "with", "a", "few", "words"), 
                text2 = c("some", "more", "words", "in", "this", "test", "text"))
tokens2 <- list(text1 = c("this_is", "is_a", "a_test", "test_text", "text_with", "with_a", "a_few", "few_words"), 
                text2 = c("some_more", "more_words", "words_in", "in_this", "this_text", "text_text"))
tokens3 <- list(text1 = c("this_is_a", "is_a_test", "a_test_text", "test_text_with", "text_with_a", "with_a_few", "a_few_words"),
                text2 = c("some_more_words", "more_words_in", "words_in_this", "in_this_text", "this_text_text"))
stopwords <- c("is", …
Run Code Online (Sandbox Code Playgroud)

performance r text-analysis stop-words n-gram

20
推荐指数
1
解决办法
3146
查看次数

如何在大量文本中查找常用短语

我正在研究一个项目,我需要在大量文本中挑选最常见的短语.比如说我们有三个句子如下:

  • 那只狗跳过那个女人.
  • 那只狗跳进了车里.
  • 狗跳上楼梯.

从上面的例子我想提取" 狗跳 ",因为它是文本中最常见的短语.起初我想,"哦,让我们使用有序图[重复节点]":

有向图http://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png

编辑:道歉,我把这个图表"翻过","进入"和"向上"都犯了一个错误,所有这些都应该链接回"the".

我将维持每个节点对象中一个单词出现次数的计数("the"将是6;"dog"和"jumped",3;等等)但是尽管存在许多其他问题,但主要出现了我们添加了一些例子(请忽略坏语法:-)):

  • 狗跳上跳下.
  • 狗跳得像以前没有狗跳过.
  • 狗高兴地跳了起来.

我们现在有一个问题,因为" dog "会启动一个新的根节点(与"the"处于同一级别),我们不会将" dog jumped " 识别为现在最常见的短语.所以现在我想也许我可以使用无向图来映射所有单词之间的关系,并最终选出常用短语,但我不确定这是如何工作的,因为你失去了重要的秩序关系这些话.

那么,对于如何识别大量文本中的常用短语以及我将使用什么数据结构,任何人都有任何一般性的想法.

谢谢,本

graph text-analysis data-mining data-structures

18
推荐指数
1
解决办法
1万
查看次数

从小文本内容(如推文)生成标记

我之前已经问了一个类似的问题,但我已经知道我有很大的限制:我正在研究小文本集,例如用户推文以生成标签(关键字).

似乎已接受的建议(逐点互信息算法)意味着可以处理更大的文档.

有了这个约束(处理一小组文本),我该如何生成标签?

问候

twitter nlp text-extraction text-analysis nltk

15
推荐指数
1
解决办法
3972
查看次数

机器学习非常简单的文本分类?

可能重复:
文本分类到类别

我目前正在研究一种解决方案,根据他们的描述,在10k餐厅的数据库中提供食物类型.我正在使用关键字列表来决定提供哪种食物.

我读了一下机器学习,但我根本没有实际经验.任何人都可以向我解释是否/为什么它会更好地解决这样一个简单的问题?我发现准确性比性能更重要!

简化示例:

["China", "Chinese", "Rice", "Noodles", "Soybeans"]
["Belgium", "Belgian", "Fries", "Waffles", "Waterzooi"]
Run Code Online (Sandbox Code Playgroud)

可能的描述可能是:

"香港花园餐厅为我们的顾客提供咸味,价格合理的中餐.如果您发现周六晚上8点突然想要 米饭,面条大豆,请不要担心!我们开放七天一个星期,提供结转服务.你也可以在这里吃薯条!"

python algorithm machine-learning text-analysis

15
推荐指数
1
解决办法
4万
查看次数

试图让Rf中的tf-idf加权工作

我正在尝试使用tm包进行一些非常基本的文本分析并得到一些tf-idf分数; 我正在运行OS X(虽然我在Debian Squeeze上试过这个但结果相同); 我有一个目录(这是我的工作目录),里面有几个文本文件(第一集包含尤利西斯的前三集,第二集包含第二集,如果你必须知道的话).

R版本:2.15.1 SessionInfo()报告这个关于tm:[1] tm_0.5-8.3

相关的代码:

library('tm')
corpus <- Corpus(DirSource('.'))
dtm <- DocumentTermMatrix(corpus,control=list(weight=weightTfIdf))

str(dtm)
List of 6
 $ i       : int [1:12456] 1 1 1 1 1 1 1 1 1 1 ...
 $ j       : int [1:12456] 2 10 12 17 20 24 29 30 32 34 ...
 $ v       : num [1:12456] 1 1 1 1 1 1 1 1 1 1 ...
 $ nrow    : int 2
 $ ncol    : int 10646 …
Run Code Online (Sandbox Code Playgroud)

r text-analysis tf-idf tm

14
推荐指数
1
解决办法
2万
查看次数

NLP:定性"正面"与"否定"句

我需要你帮助确定分析行业特定句子(即电影评论)的"积极"与"消极"的最佳方法.我以前见过像OpenNLP这样的图书馆,但它太低级了 - 它只是给了我基本的句子构成; 我需要的是一个更高级别的结构: - 希望有单词列表 - 希望可以训练我的数据集

谢谢!

nlp text-analysis

13
推荐指数
2
解决办法
1万
查看次数

Java文本分析库

我正在寻找一种java驱动的解决方案来满足分析句子的要求,以记录关键词是正面还是负面使用.

即关键词可能是'cabbages'和句子: -

'我喜欢卷心菜但不喜欢豌豆'

我想要一个java文本分析器来记录这个积极的东西.lucene(Hibernate-Search)库可以用于此吗?

有什么想法吗?

java text analysis text-analysis

13
推荐指数
1
解决办法
2万
查看次数