Die*_*ter 15 python algorithm machine-learning text-analysis
可能重复:
文本分类到类别
我目前正在研究一种解决方案,根据他们的描述,在10k餐厅的数据库中提供食物类型.我正在使用关键字列表来决定提供哪种食物.
我读了一下机器学习,但我根本没有实际经验.任何人都可以向我解释是否/为什么它会更好地解决这样一个简单的问题?我发现准确性比性能更重要!
简化示例:
["China", "Chinese", "Rice", "Noodles", "Soybeans"]
["Belgium", "Belgian", "Fries", "Waffles", "Waterzooi"]
Run Code Online (Sandbox Code Playgroud)
可能的描述可能是:
"香港花园餐厅为我们的顾客提供咸味,价格合理的中餐.如果您发现周六晚上8点突然想要 米饭,面条或大豆,请不要担心!我们开放七天一个星期,提供结转服务.你也可以在这里吃薯条!"
ami*_*mit 57
您确实描述了一个分类问题,可以通过机器学习来解决.
在此问题中,您的功能是说明中的单词.您应该使用Bag Of Words模型 - 这基本上表示每个单词的单词及其出现次数对分类过程至关重要.
要解决您的问题,请执行以下步骤:
评估:
您的算法评估可以通过交叉验证完成,或者从您的标记示例中分离出一个测试集,该测试集仅用于评估算法的准确性.
优化:
从个人经验来看 - 这里有一些我认为对特征提取有帮助的优化:
图书馆:
不幸的是,我对python不够流利,但是这里有一些可能有用的库: