我正在尝试从Scikit应用SVM学习对我收集的推文进行分类.因此,将有两个类别,将它们命名为A和B.现在,我将所有推文分类为两个文本文件"A.txt"和"B.txt".但是,我不确定Scikit Learn SVM要求的数据输入类型.我有一个字典,标签(A和B)作为其键和特征字典(unigrams)及其频率作为值.对不起,我是机器学习的新手,不知道如何让SVM工作.我发现SVM使用numpy.ndarray作为其数据输入的类型.我是否需要根据自己的数据创建一个?它应该是这样的吗?
Labels features frequency
A 'book' 54
B 'movies' 32
Run Code Online (Sandbox Code Playgroud)
任何帮助表示赞赏.
所以我想删除推文/字符串中的所有用户提及和网址.
例如,如果我有这样的推文:
@username1: some tweet here, http://www.url.com, aaaaa @username2
Run Code Online (Sandbox Code Playgroud)
我想得到这样的东西:
some tweet here, aaaaa
Run Code Online (Sandbox Code Playgroud)
我想使用正则表达式,但我是python的新手,不知道该怎么做.
此外,推文存储在JSON文件(字典列表)中,每条推文(字典)都有一个名为"实体"的密钥,它以类似的格式存储有关"user_mentions","urls"和"hashtags"的信息.下列:
{u'user_mentions': [{u'indices': [3, 18],
u'screen_name': u'username1',
u'id': 1234567,
u'name': u'user name 1',
u'id_str': u'1234567'},
{u'indices': [108, 116],
u'screen_name': u'username2',
u'id': 112233,
u'name': u'user name 2',
u'id_str': u'112233'}],
u'hashtags': [],
u'urls': [{u'url': u'http://www.url.com',
u'indices': [83, 103],
u'expanded_url': u'http://www.url.com',
u'display_url': u'http://www.url.com'}]
}
Run Code Online (Sandbox Code Playgroud)
有谁知道如何删除用户提及和网址?非常感谢!