短文本分类

Question

我即将开始一个项目,我的最终目标是将短文分类为类:"可能对访问地点X感兴趣":"不感兴趣或中立".地方由一组关键字描述(例如,膳食或里程类型,如"中国食物").理想情况下,我需要一些基于短文本分析来模拟用户愿望的方法 - 然后根据欲望分数或欲望概率进行分类 - 这个领域是否有任何最先进的技术？谢谢

Answer 1

这个问题与文本的情感分析完全相同.但是,与传统的二元分类不同,您似乎有一种"中立"的观点.情绪分析的最新技术是高度依赖于领域的.例如,在分类电影方面表现优异的技术在商业产品上表现不佳.

此外,即使是功能选择也是高度依赖于域的.例如,unigrams适用于电影评论分类,但unigrams和bigrams的组合对于分类twitter文本表现更好.

我最好的建议是"玩弄"不同的功能.由于您正在查看短文,因此Twitter可能是一个很好的动机示例.我会从unigrams和bigrams开始作为我的特色.确切的算法不是很重要.SVM通常在正确的参数调整时表现很好.在尝试更大的数据集之前,使用少量保留数据来调整这些参数.

这个问题更有趣的部分是排名!最近在以下论文中使用了"纯度分数"(我认为它们是最先进的):