NLP项目的数据库

rok*_*rok 0 python mysql nlp bigdata mongodb

有人可以建议什么数据库更好地存储文本信息,如词性序列,依赖关系,用python编写的NLP项目中使用的句子.现在,该信息存储在文件中,并且每次都需要对它们进行解析,以便提取所提到的块,这些块用作下一个处理阶段的输入.考虑的选项 - MongoDB,Cassandra和MySQL.NoSQL数据库在这种类型的应用程序中是否更好.谢谢.

kir*_*gin 6

这实际上取决于您存储的具体内容以及您将对此数据执行的操作.

SQL与NoSQL是一个非常基本的决定,没有人能在这里给你一个好的建议.如果您的数据很好地适合关系模型,那么SQL(PostgreSQL或MySQL)是您的选择.如果您的数据更像文档,请使用MongoDB.

也就是说,就在最近我做了一个搜索引擎.我们必须存储索引页面(原始文本),相同的文本但标记化和一些额外的元数据.MongoDB表现非常好.