基本词源于R而不是根词

Question

基本词源于R而不是根词

在使用R中的NLP时,有没有办法在词干中获得基本词而不是词根？

码:

> #Loading libraries
> library(tm)
> library(slam)
> 
> #Vector
> Vec=c("happyness happies happys","sky skies")
> 
> #Creating Corpus
> Txt=Corpus(VectorSource(Vec))
> 
> #Stemming
> Txt=tm_map(Txt, stemDocument)
> 
> #Checking result
> inspect(Txt)
A corpus with 2 text documents

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator 
Available variables in the data frame are:
  MetaID 

[[1]]
happi happi happi

[[2]]
sky sky

>

Run Code Online (Sandbox Code Playgroud)

我可以使用R得到"happyness happies happys"的基本单词"happy"(基本单词)而不是"happi"(根单词)

Answer 1

cyb*_*org 2

您可能正在寻找词干分析器。以下是CRAN 任务视图中的一些词干提取器：自然语言处理：

RWeka是 Weka 的接口，Weka 是用 Java 编写的用于数据挖掘任务的机器学习算法的集合。在自然语言处理环境中特别有用的是其标记化和词干提取功能。
Snowball提供了 Snowball 词干分析器，其中包含 Porter 词干分析器和其他几种针对不同语言的词干分析器。有关详细信息，请参阅 Snowball 网页。
Rstem是 Porter 词干提取算法的 C 版本的替代接口。

归档时间：	14 年，7 月前
查看次数：	5347 次
最近记录：	10 年，11 月前