day*_*mer 6 database hadoop nlp classification sentiment-analysis
我正在尝试训练朴素贝叶斯分类器,从情绪中提取正/负词.例:
我喜欢这部电影 :))
我讨厌下雨的时候:(
我的想法是根据所使用的emoctions提取正面或负面的句子,但是为了训练分类器并将其持久化到数据库中.
问题是我有超过100万个这样的句子,所以如果我逐字训练,数据库就会折腾.我想删除所有不相关的单词示例'I','this','when','it',以便我必须进行数据库查询的次数较少.
请帮我解决这个问题,向我建议更好的方法
谢谢
有两种常见的方法:
在两种情况下,确定哪些单词/ POS标签是相关的可以使用诸如PMI的度量来完成.
请注意:信息检索的标准停止列表在情绪分析中可能有效,也可能无效.我最近读了一篇论文(没有参考,对不起),声称它!和?,通常在搜索引擎中删除,是情绪分析的宝贵线索.(所以可能'我',尤其是当你也有中性类别时.)
编辑:您还可以安全地丢弃在训练集中仅出现一次的所有内容(所谓的hapax legomena).一旦出现的单词对您的分类器几乎没有信息价值,但可能会占用大量空间.
| 归档时间: |
|
| 查看次数: |
889 次 |
| 最近记录: |