我正在使用 SpaCy 进行文本分析,但我无法理解词性 (POS) 和句法依赖解析之间的区别。两者都根据角色在句子中标记单词。但它们究竟有何不同?
我致力于分类一些评论(段落)由多个句子组成.我通过libSVM在Weka中使用词袋功能对它们进行了分类.但是,我有另一个想法,我不知道如何实现:
我认为在评论中为每个句子创建基于语法和浅层语义的特征是值得尝试的.但是,由于段落的句子大小不同,我找不到任何顺序编码这些功能的方法.我想将这些特征保持在一个顺序中的原因是句子特征的顺序可以为分类提供更好的线索.例如,如果我有两个实例P1(有3个句子)和P2(2个句子),我会有一个这样的空格(假设每个句子有一个二进制特征作为a或b):
P1 - > abb/classX P2 - > ba/classY
所以,我的问题是我是否可以在特征空间中实现不同特征尺寸的分类?如果是的话,我可以在Weka,scikit-learn或Mallet中使用任何类型的分类器吗?我将不胜感激任何回应.
谢谢