Mic*_*les 6 parsing text lexer
我希望将分数(正面,负面或中性)应用于短文本短语.如果没有解析表情符号并根据其使用情况做出假设,我不确定还有什么可以尝试.任何人都可以提供例子,研究论文,文章等,对这个问题进行更多的词汇分析.
我在考虑诸如副词使用,标点误用/重复,拼写/语法错误之类的东西都可以作为作者心情的体面指标,几乎是二元意义上的(好的或坏的).
这听起来像是一个非常清晰的二元分类任务,您可以将问题简化为正或负,然后通过将概率质量设置为中性来做出最具熵的决策或尚未达到确定性阈值的决策。
您最大的障碍将是获取随机机器学习方法的训练数据。您可以使用现成的最大熵模型轻松地做到这一点,例如高级判别建模工具包或Mallet。您描述的功能只需格式化为这些模型使用的输入。
为了获得训练数据,您可以进行某种付费众包,例如亚马逊的 Mechanical Turk,或者自己动手,也许可以在朋友的帮助下进行。为此你需要大量数据。鉴于数据缺乏,您可以通过主动学习、集成或增强等方法来提高模型的预测强度,但重要的是尽可能根据现实世界的数据来测试这些方法,并选择最有效的方法。实际应用。
如果您正在寻找这方面的论文,您需要查看谷歌学术搜索中的术语“情感分析”。计算语言学协会有许多来自会议和期刊的免费且有用的论文,这些论文从语言和算法的角度解决了这个问题。我也会浏览他们的档案。祝你好运!
归档时间: |
|
查看次数: |
2148 次 |
最近记录: |