我有想要标记的文本块,但我不想对空格和标点符号进行标记,因为似乎是NLTK等工具的标准.我希望将特定短语标记为单个标记,而不是常规标记化.
例如,鉴于句子"The West Wing是由Aaron Sorkin创作的美国电视连续剧,最初于1999年9月22日至2006年5月14日在NBC上播出",并将该短语添加到令牌器" 西翼, "由此产生的代币将是:
实现这一目标的最佳方法是什么?我宁愿呆在像NLTK这样的工具范围内.
python nlp tokenize nltk
我有这个脚本在文本中进行单词搜索.搜索结果非常好,结果按预期工作.我想要实现的是提取n接近匹配的单词.例如:
n
世界是一个小地方,我们应该尽力照顾它.
假设我正在寻找place,我需要提取右边的3个单词和左边的3个单词.在这种情况下,他们将是:
place
left -> [is, a, small] right -> [we, should, try]
这样做的最佳方法是什么?
谢谢!
python regex text-processing find
python ×2
find ×1
nlp ×1
nltk ×1
regex ×1
text-processing ×1
tokenize ×1