从文本中提取语义/文体特征

Dex*_*ter 5 python java machine-learning

我想知道开源工具(用于java/python),它可以帮助我从文本中提取语义和风格特征.的语义特征的例子是形容词-名词比率,部分的语音标签的特定序列(形容词之后紧跟一个名词:形| NN)的风格特征等.实施例将是唯一字数目,代词的数量等目前,我只知道Word to Web Tools将文本块转换为基本向量空间模型.

我知道很少有文本挖掘软件包,如GATE,NLTK,Rapid Miner,MalletMinorThird.但是,我找不到适合我任务的机制.

问候, -
丹尼尔

Rug*_*man 1

我使用Lucene的分析器和索引机制来构建文档的向量空间,然后在该空间中进行导航。您可以为文档构建词频向量,使用现有文档在向量空间中搜索其他相似文档。如果您的数据很大(数百万个文档、数万个特征),那么您可能会喜欢 Lucene。您还可以进行词干提取、词性标记和其他操作。这篇博文可能是词性标记的一个很好的起点。简而言之,Lucene 为您提供了实现您提到的任务的所有必要机制。

我经常听到的一个库是Semantic Vectors。它同样是基于 Lucene 构建的,但我对此没有直接的经验。除此之外,我建议查看维基百科的向量空间模型文章