将文本拆分为段落 NLTK - nltk.tokenize.texttiling 的用法?

use*_*418 5 python nltk

我正在研究将文档拆分为段落的方法,并且发现文本平铺是实现此目的的一种可能方法。

这是我使用它的尝试。但是,我不明白如何处理输出。我很感激你的帮助。

t = unidecode(doclist[0].decode('utf-8','ignore'))

nltk.tokenize.texttiling.TextTilingTokenizer(t)
Run Code Online (Sandbox Code Playgroud)

输出:

<nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350>
Run Code Online (Sandbox Code Playgroud)

小智 4

出于与您相同的原因,我自己也正在搞乱这个问题,并且也有同样的问题,所以如果这是错误的,请不要太沮丧。我认为最好传递我所知道的一点点......:)

我还不确定,但我在错误报告中找到了使用 TextTilingTokenizer 的示例:

alice=nltk.corpus.gutenberg.raw('carroll-alice.txt')
ttt = nltk.tokenize.TextTilingTokenizer()
tiles = ttt.tokenize(alice[140309 : ])
Run Code Online (Sandbox Code Playgroud)

您似乎想要将文本提供给 TextTilingTokenizer 上的 tokenize 方法。