NLTK - 什么时候将文本规范化？

Question

我已经收集了我计划用于语料库的数据,但是我对是否应该对文本进行规范化感到困惑.我打算将来标记和分块语料库.一些NLTK的语料库都是小写的,而其他的则不是.

有人可以对这个问题有所了解吗？

Answer 1

通过"规范化"你只是意味着把所有东西都小写？

关于是否小写一切的决定实际上取决于你打算做什么.出于某些目的,降低所有内容的效果会更好,因为它会降低数据的稀疏性(大写单词很少见,并且可能会混淆系统,除非您有大量语料库,以便大写单词的统计数据是合适的).在其他任务中,案例信息可能很有价值.

此外,您还需要考虑其他类似因素.例如,应"can't"被视为["can't"],["can", "'t"]或["ca", "n't"](我已经看到了不同的语料库全部三个).怎么样7-year-old？这是一个长话吗？还是三个应该分开的词？

也就是说,没有理由重新格式化语料库.您可以让代码动态地进行这些更改.这样,如果您需要,原始信息仍然存在.

"对于大多数用途"并非如此:文本分类器需要小写输入,但POS标记器,NER模块和解析器使用案例信息.没有案例信息(至少对于英语),NER几乎是不可能的. (4认同)