我已经收集了我计划用于语料库的数据,但是我对是否应该对文本进行规范化感到困惑.我打算将来标记和分块语料库.一些NLTK的语料库都是小写的,而其他的则不是.
有人可以对这个问题有所了解吗?
通过"规范化"你只是意味着把所有东西都小写?
关于是否小写一切的决定实际上取决于你打算做什么.出于某些目的,降低所有内容的效果会更好,因为它会降低数据的稀疏性(大写单词很少见,并且可能会混淆系统,除非您有大量语料库,以便大写单词的统计数据是合适的).在其他任务中,案例信息可能很有价值.
此外,您还需要考虑其他类似因素.例如,应"can't"被视为["can't"],["can", "'t"]或["ca", "n't"](我已经看到了不同的语料库全部三个).怎么样7-year-old?这是一个长话吗?还是三个应该分开的词?
也就是说,没有理由重新格式化语料库.您可以让代码动态地进行这些更改.这样,如果您需要,原始信息仍然存在.