Chr*_*ede 15 twitter nlp nltk sentiment-analysis
首先抱歉我的英语不太完美...我来自德国;)
因此,对于我的研究项目(学士论文),我需要分析关于某些公司和品牌的推文的情绪.为此,我需要编写自己的程序脚本/使用某种修改过的开源代码(没有API' - 我需要了解发生了什么).
您可以在下面找到我找到的一些NLP应用程序列表.我现在的问题是你推荐哪一种方法?哪一个不需要长时间调整代码?
例如:当我为推特音乐播放器播放Twitter> iPod <并且有人写道:"这是一个糟糕的一天,但至少我的iPod让我开心"或者甚至更难:"这是一个糟糕的一天,但至少我的iPod弥补了它"
哪个软件足够智能,可以理解专注于iPod,而不是天气?
哪个软件可扩展/资源有效(我想分析几条推文,不想花费数千美元)?
机器学习和数据挖掘
Weka - 是用于数据挖掘的机器学习算法的集合.它是最流行的文本分类框架之一.它包含各种算法的实现,包括朴素贝叶斯和支持向量机(SVM,在SMO下列出)[注意:其他常用的非Java SVM实现是SVM-Light,LibSVM和SVMTorch].一个相关的项目是Kea(Keyphrase Extraction Algorithm)一种从文本文档中提取关键短语的算法.
Apache Lucene Mahout - 一个孵化器项目,用于在Hadoop map-reduce框架之上创建通用机器学习算法的高度可扩展的分布式实现.
NLP工具
LingPipe - (技术上不是'开源,见下文)Alias-I的Lingpipe是一套用于文本语言处理的java工具,包括实体提取,语音标记(pos),聚类,分类等...它是其中之一业界最成熟,最广泛使用的开源NLP工具包.它以其速度,稳定性和可扩展性而闻名.其最好的功能之一是大量精心编写的教程,以帮助您入门.他们列出了竞争的链接,包括学术和工业工具.一定要看看他们的博客.LingPipe是在包含源代码的免版税商业许可下发布的,但它在技术上并不是"开源".
OpenNLP - 托管各种基于Java的NLP工具,使用Maxent机器学习包执行句子检测,标记化,词性标记,分块和解析,命名实体检测和共同参考分析.
Stanford Parser和词性(Tag)Tagger - 用于斯坦福NLP小组的句子解析和词性标注的Java包.它具有概率自然语言解析器的实现,包括高度优化的PCFG和词汇化依赖解析器,以及词汇化的PCFG解析器.它有一个完整的GNU GPL许可证.
OpenFST - 用于操纵加权有限状态自动机的包.这些通常用于表示可能性模型.它们用于模拟语音识别,OCR纠错,机器翻译和各种其他任务的文本.该图书馆由Google Research和纽约大学的贡献者开发.它是一个C++库,旨在快速和可扩展.
NTLK - 自然语言工具包是用于教学和研究分类,聚类,语音标记和解析等的工具.它包含一组用于实验的教程和数据集.它由墨尔本大学的史蒂文伯德撰写.
Opinion Finder - 一个执行主观性分析的系统,自动识别文本中何时存在意见,情绪,推测和其他私人状态.具体而言,OpinionFinder旨在识别主观句子并标记这些句子中主观性的各个方面,包括主观性的来源(持有者)和表达正面或负面情绪的短语中包含的单词.
Tawlk/osae - 用于社交文本情感分类的python库.最终目标是拥有一个"正常工作"的简单库.它应该有一个容易进入的障碍,并有完整的文件记录.我们使用在negwords.txt和poswords.txt上收集的推文使用停用词过滤获得了最佳准确度
GATE - GATE已超过15年,并且正在积极地用于涉及人类语言的所有类型的计算任务.GATE擅长各种形状和大小的文本分析.从大型企业到小型创业公司,从数百万欧元的研究联盟到本科项目,我们的用户社区是这类系统中规模最大,最多样化的系统,并且遍布除了一个大陆之外的所有系统1.
textir - 一套用于文本和情感挖掘的工具.这包括用于稀疏多项逻辑回归的'mnlm'函数,'pls',简明的偏最小二乘例程和'主题'函数,用于潜在主题模型中的有效估计和维度选择.
NLP Toolsuite - JULIE Lab提供了一个全面的NLP工具套件,用于语义搜索,信息提取和文本挖掘的应用程序.我们不断扩展的工具套件大部分基于机器学习方法,因此不依赖于域和语言.
...
旁注:你会推荐twitter流媒体或获取API吗?
至于我,我是python和java的粉丝;)
非常感谢你的帮助!!!
小智 4
我不确定我能提供多少帮助,但我以前曾使用过手卷 NLP。我想到了几个问题 - 并非所有产品都与语言无关(即人类语言,而不是计算机语言)。如果您计划分析德语推文,那么您选择的产品能够处理德语非常重要。显然我知道,但很容易忘记。还有一个事实是,twitter 上存在着大量的缩略语和首字母缩略词,而且语言结构受到字符限制的限制,这意味着语法并不总是与语言的预期结构相匹配。
在英语中,如果您必须自己编写代码,则可以稍微简化从句子中提取名词的过程。专有名词具有首字母大写,一串此类单词(可能包括“of”)就是名词短语的一个示例。前面带有“a/an/my/his/hers/the/this/these/those”的单词将是形容词或名词。不幸的是,在那之后事情变得更加困难。
有一些规则可以帮助识别复数,但也有很多例外。当然,我在这里谈论的是英语,我的德语口语很差,恐怕无法帮助我理解语法。
归档时间: |
|
查看次数: |
6903 次 |
最近记录: |