将文本拆分为段落 NLTK - nltk.tokenize.texttiling 的用法？

Question

我正在研究将文档拆分为段落的方法，并且发现文本平铺是实现此目的的一种可能方法。

这是我使用它的尝试。但是，我不明白如何处理输出。我很感激你的帮助。

t = unidecode(doclist[0].decode('utf-8','ignore'))

nltk.tokenize.texttiling.TextTilingTokenizer(t)

输出：

<nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350>

Answer 1

出于与您相同的原因，我自己也正在搞乱这个问题，并且也有同样的问题，所以如果这是错误的，请不要太沮丧。我认为最好传递我所知道的一点点......:)

我还不确定，但我在此错误报告中找到了使用 TextTilingTokenizer 的示例：

alice=nltk.corpus.gutenberg.raw('carroll-alice.txt')
ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(alice[140309 : ])

您似乎想要将文本提供给 TextTilingTokenizer 上的 tokenize 方法。