Han*_*pan 4 python classification machine-learning nltk
我正在尝试构建一个模型,该模型将尝试识别所提供文本的兴趣类别/主题.例如:
"早些时候喜欢玩足球比赛."
将解析为顶级类别,如:
"运动".
我不确定我在这里尝试实现的正确术语是什么,因此谷歌没有找到任何可能提供帮助的库.考虑到这一点,我的方法将是这样的:
我的方法可能涉及为每个兴趣类别设置单独的语料库,我确信准确性会相当悲惨 - 我知道它永远不会那么准确.
一般都在寻找一些关于我想要实现的可行性的建议,但问题的关键在于:a)我的方法是正确的吗?b)是否有任何图书馆/资源可能有所帮助?
你似乎知道很多正确的术语.尝试搜索"文档分类".这是您要解决的一般问题.在代表语料库上训练的分类器将比您想象的更准确.
有很多其他信息,包括教程,在线有关此主题:
归档时间: |
|
查看次数: |
2393 次 |
最近记录: |