我正在NaiveBayesClassifier使用句子训练Python,它给出了下面的错误.我不明白错误是什么,任何帮助都会很好.
我尝试了很多其他输入格式,但错误仍然存在.代码如下:
from text.classifiers import NaiveBayesClassifier
from text.blob import TextBlob
train = [('I love this sandwich.', 'pos'),
('This is an amazing place!', 'pos'),
('I feel very good about these beers.', 'pos'),
('This is my best work.', 'pos'),
("What an awesome view", 'pos'),
('I do not like this restaurant', 'neg'),
('I am tired of this stuff.', 'neg'),
("I can't deal with this", 'neg'),
('He is my sworn enemy!', 'neg'),
('My boss is horrible.', 'neg') ]
test = [('The beer …Run Code Online (Sandbox Code Playgroud) 我正在使用Vader SentimentAnalyzer获取极性分数.之前我使用了正/负/中性的概率分数,但我刚刚意识到"复合"分数,范围从-1(大多数负)到1(大多数pos)将提供单一的极性测量.我想知道如何计算"复合"分数.这是从[pos,neu,neg]向量计算的吗?
我有一个django表单,它收集用户响应.我也有张量流句分类模型.将这两者结合在一起的最佳/标准方法是什么?细节:
如果您可以建议教程或回购,那就太棒了.谢谢 !
django machine-learning sentiment-analysis scikit-learn tensorflow
如何处理/删除表情符号以便我可以对推文进行情感分析?
获取:sort.list(y)中的错误:输入无效
谢谢
这就是表情符号从twitter发送到r中的方式:
\xed??\xed?\u0083\xed??\xed??
\xed??\xed?\u008d\xed??\xed?\u0089
Run Code Online (Sandbox Code Playgroud) 我正在探索tensorflow,并希望使用可用的选项进行情绪分析.我看了下面的教程http://www.tensorflow.org/tutorials/recurrent/index.html#language_modeling
我曾经使用过Naive Bayes分类器,最大熵算法和Scikit Learn Classifier,想知道tensorflow是否有更好的算法.这是正确的起点还是有其他选择?
任何指向正确方向的帮助将不胜感激.
提前致谢.
我正在进行情绪分析,我正在使用此链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html我将数据集分成50:50比例.50%用作测试样品,50%用作火车样品,从火车样品中提取特征并使用Weka分级器进行分类,但我的预测准确度约为70-75%.
任何人都可以建议一些其他数据集可以帮助我增加结果 - 我使用unigram,bigram和POStags作为我的功能.
首先抱歉我的英语不太完美...我来自德国;)
因此,对于我的研究项目(学士论文),我需要分析关于某些公司和品牌的推文的情绪.为此,我需要编写自己的程序脚本/使用某种修改过的开源代码(没有API' - 我需要了解发生了什么).
您可以在下面找到我找到的一些NLP应用程序列表.我现在的问题是你推荐哪一种方法?哪一个不需要长时间调整代码?
例如:当我为推特音乐播放器播放Twitter> iPod <并且有人写道:"这是一个糟糕的一天,但至少我的iPod让我开心"或者甚至更难:"这是一个糟糕的一天,但至少我的iPod弥补了它"
哪个软件足够智能,可以理解专注于iPod,而不是天气?
哪个软件可扩展/资源有效(我想分析几条推文,不想花费数千美元)?
机器学习和数据挖掘
Weka - 是用于数据挖掘的机器学习算法的集合.它是最流行的文本分类框架之一.它包含各种算法的实现,包括朴素贝叶斯和支持向量机(SVM,在SMO下列出)[注意:其他常用的非Java SVM实现是SVM-Light,LibSVM和SVMTorch].一个相关的项目是Kea(Keyphrase Extraction Algorithm)一种从文本文档中提取关键短语的算法.
Apache Lucene Mahout - 一个孵化器项目,用于在Hadoop map-reduce框架之上创建通用机器学习算法的高度可扩展的分布式实现.
NLP工具
LingPipe - (技术上不是'开源,见下文)Alias-I的Lingpipe是一套用于文本语言处理的java工具,包括实体提取,语音标记(pos),聚类,分类等...它是其中之一业界最成熟,最广泛使用的开源NLP工具包.它以其速度,稳定性和可扩展性而闻名.其最好的功能之一是大量精心编写的教程,以帮助您入门.他们列出了竞争的链接,包括学术和工业工具.一定要看看他们的博客.LingPipe是在包含源代码的免版税商业许可下发布的,但它在技术上并不是"开源".
OpenNLP - 托管各种基于Java的NLP工具,使用Maxent机器学习包执行句子检测,标记化,词性标记,分块和解析,命名实体检测和共同参考分析.
Stanford Parser和词性(Tag)Tagger - 用于斯坦福NLP小组的句子解析和词性标注的Java包.它具有概率自然语言解析器的实现,包括高度优化的PCFG和词汇化依赖解析器,以及词汇化的PCFG解析器.它有一个完整的GNU GPL许可证.
OpenFST - 用于操纵加权有限状态自动机的包.这些通常用于表示可能性模型.它们用于模拟语音识别,OCR纠错,机器翻译和各种其他任务的文本.该图书馆由Google Research和纽约大学的贡献者开发.它是一个C++库,旨在快速和可扩展.
NTLK - 自然语言工具包是用于教学和研究分类,聚类,语音标记和解析等的工具.它包含一组用于实验的教程和数据集.它由墨尔本大学的史蒂文伯德撰写.
Opinion Finder - 一个执行主观性分析的系统,自动识别文本中何时存在意见,情绪,推测和其他私人状态.具体而言,OpinionFinder旨在识别主观句子并标记这些句子中主观性的各个方面,包括主观性的来源(持有者)和表达正面或负面情绪的短语中包含的单词.
Tawlk/osae - 用于社交文本情感分类的python库.最终目标是拥有一个"正常工作"的简单库.它应该有一个容易进入的障碍,并有完整的文件记录.我们使用在negwords.txt和poswords.txt上收集的推文使用停用词过滤获得了最佳准确度
GATE - GATE已超过15年,并且正在积极地用于涉及人类语言的所有类型的计算任务.GATE擅长各种形状和大小的文本分析.从大型企业到小型创业公司,从数百万欧元的研究联盟到本科项目,我们的用户社区是这类系统中规模最大,最多样化的系统,并且遍布除了一个大陆之外的所有系统1.
textir - 一套用于文本和情感挖掘的工具.这包括用于稀疏多项逻辑回归的'mnlm'函数,'pls',简明的偏最小二乘例程和'主题'函数,用于潜在主题模型中的有效估计和维度选择.
NLP Toolsuite - JULIE Lab提供了一个全面的NLP工具套件,用于语义搜索,信息提取和文本挖掘的应用程序.我们不断扩展的工具套件大部分基于机器学习方法,因此不依赖于域和语言.
...
旁注:你会推荐twitter流媒体或获取API吗?
至于我,我是python和java的粉丝;)
非常感谢你的帮助!!!
大家好!我正在使用Stanford Core NLP软件包,我的目标是在实时推文上进行情绪分析.
使用情绪分析工具返回对文本"态度"的非常差的分析.许多正面被标记为中性,许多负面评价为正面.我已经在一个文本文件中获得了超过一百万条推文,但我不知道如何实际训练该工具并创建我自己的模型.
"可以使用PTB格式数据集使用以下命令重新训练模型:"
java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz
Run Code Online (Sandbox Code Playgroud)
来自dev.txt的样本(前4位表示5 ... 4/5正极性)
(4 (4 (2 A) (4 (3 (3 warm) (2 ,)) (3 funny))) (3 (2 ,) (3 (4 (4 engaging) (2 film)) (2 .))))
Run Code Online (Sandbox Code Playgroud)
来自test.txt的示例
(3 (3 (2 If) (3 (2 you) (3 (2 sometimes) (2 (2 like) (3 (2 to) (3 (3 (2 go) (2 (2 to) (2 (2 the) (2 movies)))) (3 (2 to) (3 (2 …Run Code Online (Sandbox Code Playgroud) 我想在我的Android项目中使用CoreNLP.但是当我创建这样的CoreNLP实例时:
import java.util.Properties;
import edu.stanford.nlp.ling.CoreAnnotations;
import edu.stanford.nlp.neural.rnn.RNNCoreAnnotations;
import edu.stanford.nlp.pipeline.Annotation;
import edu.stanford.nlp.pipeline.StanfordCoreNLP;
import edu.stanford.nlp.sentiment.SentimentCoreAnnotations;
import edu.stanford.nlp.trees.Tree;
import edu.stanford.nlp.util.CoreMap;
public class NLP {
private StanfordCoreNLP pipeline;
Properties props;
public NLP() {
props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, pos, parse, sentiment");
pipeline = new StanfordCoreNLP(props);//-->ERROR, SEE BELOW
}
public int findSentiment(String line) {
int mainSentiment = 0;
if (line != null && line.length() > 0) {
int longest = 0;
Annotation annotation = pipeline.process(line);
for (CoreMap sentence : annotation
.get(CoreAnnotations.SentencesAnnotation.class)) {
Tree …Run Code Online (Sandbox Code Playgroud) 我试图借助拥抱面部情绪分析预训练模型来获取评论的情绪。它返回错误,就像Token indices sequence length is longer than the specified maximum sequence length for this model (651 > 512)拥抱面部情感分类器一样。
下面我附上代码请看一下
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
import transformers
import pandas as pd
model = AutoModelForSequenceClassification.from_pretrained('/content/drive/MyDrive/Huggingface-Sentiment-Pipeline')
token = AutoTokenizer.from_pretrained('/content/drive/MyDrive/Huggingface-Sentiment-Pipeline')
classifier = pipeline(task='sentiment-analysis', model=model, tokenizer=token)
data = pd.read_csv('/content/drive/MyDrive/DisneylandReviews.csv', encoding='latin-1')
data.head()
Run Code Online (Sandbox Code Playgroud)
输出是
Review
0 If you've ever been to Disneyland anywhere you...
1 Its been a while since d last time we visit HK...
2 Thanks God it wasn t too hot …Run Code Online (Sandbox Code Playgroud) nlp sentiment-analysis deep-learning huggingface-transformers huggingface-tokenizers
nlp ×5
nltk ×3
java ×2
python ×2
stanford-nlp ×2
tensorflow ×2
android ×1
dataset ×1
django ×1
iconv ×1
r ×1
scikit-learn ×1
text-mining ×1
textblob ×1
twitter ×1
vader ×1
web-mining ×1