相关疑难解决方法(0)

我有想要标记的文本块,但我不想对空格和标点符号进行标记,因为似乎是NLTK等工具的标准.我希望将特定短语标记为单个标记,而不是常规标记化.

例如,鉴于句子"The West Wing是由Aaron Sorkin创作的美国电视连续剧,最初于1999年9月22日至2006年5月14日在NBC上播出",并将该短语添加到令牌器" 西翼, "由此产生的代币将是:

实现这一目标的最佳方法是什么？我宁愿呆在像NLTK这样的工具范围内.

7
推荐指数

2
解决办法

5467
查看次数

我有这个脚本在文本中进行单词搜索.搜索结果非常好,结果按预期工作.我想要实现的是提取n接近匹配的单词.例如:

世界是一个小地方,我们应该尽力照顾它.

假设我正在寻找place,我需要提取右边的3个单词和左边的3个单词.在这种情况下,他们将是:

left -> [is, a, small]
right -> [we, should, try]

这样做的最佳方法是什么？

谢谢!

7
推荐指数

3
解决办法

7202
查看次数

nlp ×1