snø*_*ven 5 nlp information-extraction text-classification
是否有可以检测自然文本主题的库或数据库?
我不是在谈论从提取的关键字生成主题,而是在分析使用的词汇并将其与预定义的主题进行匹配。例如搜索烹饪或某些运动中使用的单词(例如足球俱乐部的名称或技术术语)。
更新并澄清:
示例文本片段:一个关于足球的句子,然后是另一个谈论活动餐饮的句子。
图书馆可以分配类别“体育”、“足球”、“烹饪”。
我正在寻找可以分配这些类别(或可能是“感兴趣的主题”)的东西,而无需我使用数 TB 的手动分类文档来训练数千个模型。例如,这可以通过匹配关键字而不是统计分析来工作(这就是我之前提到数据库的原因)。
我正在搜索这个,因为我自己没有人力建立这么大的数据库。
您描述的任务是经典的文本文档分类。我建议通读这篇文章,然后通过已知关键字进行搜索。
简而言之,最流行的方法是监督机器学习(例如 SVM),使用单词的 tf-idf,或者有时是单词 n-gram。
Scikit-learn 教程描述了此任务;还有像LibShortText这样的现有库。
对于数据集(比“数据库”更常见的术语),请参阅Reuters-21578 Text Categorization Collection或此处。一般来说,从预定义的类别中收集文本并不难。例如,如果您想按运动类型对文本进行分类,请访问新闻网站(也许是专门的网站),例如体育运动。
另请参阅stackoverflow或quora上的相关问题。