小编Del*_*ela的帖子

python中文本清理/处理的管道

我对 python 环境(jupyter notebook)很陌生,我正在尝试处理相对庞大的文本数据。我想通过应用以下步骤并按相同顺序来处理它:

去除空格、小写、词干、去除标点符号但保留词内破折号或连字符、去除停用词、去除符号、去除空格、

我希望我可以得到一个可以执行任务的函数,而不是单独执行它们,是否有任何单个库和/或函数可以提供帮助?如果不是,那么定义一个函数来执行它们的最简单方法是什么?

text-processing nlp nltk python-3.x jupyter-notebook

4
推荐指数
1
解决办法
4424
查看次数