在NLTK中创建自己的语料库的优点

Question

在NLTK中创建自己的语料库的优点

我在Mysql表中有大量的文本.我想做一些统计分析,然后使用NLTK工具包对我的文本进行一些NLP.我有两个选择:

从我的数据库表中一次提取所有文本(如果需要,可以将它们放在一个文件中)并使用NLTK函数
提取文本并将其转换为可与NLTK一起使用的"语料库".

后者似乎相当复杂,我没有找到任何实际描述如何使用它的文章我只发现了这一点: 创建一个MongoDB支持的语料库阅读器,它使用MongoDB作为其数据库,代码非常复杂,还需要知道MongoDB.另一方面,前者看起来非常简单,但会导致从DB中提取文本的开销.

现在的问题是NLTK中语料库的优点是什么？换句话说,如果我接受挑战并深入研究覆盖NTLK方法,以便它可以从MySQL数据库中读取,那值得麻烦吗？将我的文本转换成语料库会给我一些我不能(或有很多困难)使用普通NLTK函数的东西吗？

另外,如果您对将MySQL连接到NLTK有所了解,请告诉我.谢谢

Answer 1

Hos*_*ein 3

好吧，读了很多书后我找到了答案。有几个非常有用的函数，例如搭配、搜索、common_context、similar，可用于在 NLTK 中保存为语料库的文本。自己实施它们需要相当长的时间。如果从数据库中选择我的文本并放入文件中并使用该nltk.Text函数，那么我可以使用我之前提到的所有函数，而不需要编写那么多行代码，甚至不需要重写方法，以便我可以连接到 MySql。Here是更多信息的链接：nltk.Text

我是 MongoDB 文章的作者，但我认为您做出了最好的决定。您可以使用纯文本文件做很多事情，但当文本位于数据库中时，这些事情就困难得多。我写这篇文章是为了说明可能性，但这并不意味着它总是一个好主意。 (3认同)

归档时间：	14 年，8 月前
查看次数：	2861 次
最近记录：	9 年，9 月前