Tas*_*ies 2 twitter classification machine-learning
我有几百条推文可供我使用,我希望通过获取真实姓名并查看至少2条推文,将每个Twitter用户分类为男性和女性.我已经编程了从他们的个人资料中获取每个人的真实姓名,我现在正在寻找对他们的推文文本进行分类,以试图对用户是M还是F做出更强烈的肯定.我在网上搜索和搜索了文本示例分类但不太确定从哪里开始.我还在这个链接Twitter文本与性别下载中找到了一些非常有用的数据. 任何有关如何将推文文本归类为男性或女性的建议都将非常感激!我有点像砖墙.
你需要一套训练集,这是一个明显的陈述.没有其他办法.正如您在上一个问题中已经说明的那样,使用朴素贝叶斯分类来识别Twitter用户的性别,您可以手动创建它们,也可以在半监督的情况下创建它们,您可以使用外部规则(如真实姓名)创建训练集.
最简单的方法是使用现有的推文数据来训练您的分类器使用性别标签,我建议:http: //clic.cimec.unitn.it/amac/twitter_ngram/
其他资源:博客性别:http://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar
我没有任何其他由男性或女性写的SURE文本数据集,以帮助训练分类器.
这对你来说是一个障碍.您需要使用这样的数据集执行监督学习,例如使用感知器学习器; 或者您需要执行无监督学习,例如k-means聚类,并尝试找到您可以(有点随意)声明为男性或女性信号的聚类.在无监督的方法中区分性别在实践中几乎是不可能的,至少在没有其他现有信息,先验或功能图可以构建的情况下.
归档时间: |
|
查看次数: |
4501 次 |
最近记录: |