相关疑难解决方法(0)

Python:使用短语进行标记

我有想要标记的文本块,但我不想对空格和标点符号进行标记,因为似乎是NLTK等工具的标准.我希望将特定短语标记为单个标记,而不是常规标记化.

例如,鉴于句子"The West Wing是由Aaron Sorkin创作的美国电视连续剧,最初于1999年9月22日至2006年5月14日在NBC上播出",并将该短语添加到令牌器" 西翼, "由此产生的代币将是:

  • 西翼
  • 一个
  • 美国
  • ...

实现这一目标的最佳方法是什么?我宁愿呆在像NLTK这样的工具范围内.

python nlp tokenize nltk

7
推荐指数
2
解决办法
5467
查看次数

提取搜索词周围的单词

我有这个脚本在文本中进行单词搜索.搜索结果非常好,结果按预期工作.我想要实现的是提取n接近匹配的单词.例如:

世界是一个小地方,我们应该尽力照顾它.

假设我正在寻找place,我需要提取右边的3个单词和左边的3个单词.在这种情况下,他们将是:

left -> [is, a, small]
right -> [we, should, try]
Run Code Online (Sandbox Code Playgroud)

这样做的最佳方法是什么?

谢谢!

python regex text-processing find

7
推荐指数
3
解决办法
7202
查看次数

标签 统计

python ×2

find ×1

nlp ×1

nltk ×1

regex ×1

text-processing ×1

tokenize ×1