小编use*_*856的帖子

使用Scikit Learn SVM准备文本分类数据

我正在尝试从Scikit应用SVM学习对我收集的推文进行分类.因此,将有两个类别,将它们命名为A和B.现在,我将所有推文分类为两个文本文件"A.txt"和"B.txt".但是,我不确定Scikit Learn SVM要求的数据输入类型.我有一个字典,标签(A和B)作为其键和特征字典(unigrams)及其频率作为值.对不起,我是机器学习的新手,不知道如何让SVM工作.我发现SVM使用numpy.ndarray作为其数据输入的类型.我是否需要根据自己的数据创建一个?它应该是这样的吗?

Labels    features    frequency
  A        'book'        54
  B       'movies'       32
Run Code Online (Sandbox Code Playgroud)

任何帮助表示赞赏.

python svm scikit-learn

11
推荐指数
1
解决办法
3万
查看次数

如何使用python删除tweet /字符串中的用户提及和URL

所以我想删除推文/字符串中的所有用户提及和网址.

例如,如果我有这样的推文:

@username1: some tweet here, http://www.url.com, aaaaa @username2
Run Code Online (Sandbox Code Playgroud)

我想得到这样的东西:

some tweet here, aaaaa
Run Code Online (Sandbox Code Playgroud)

我想使用正则表达式,但我是python的新手,不知道该怎么做.

此外,推文存储在JSON文件(字典列表)中,每条推文(字典)都有一个名为"实体"的密钥,它以类似的格式存储有关"user_mentions","urls"和"hashtags"的信息.下列:

{u'user_mentions': [{u'indices': [3, 18],
                     u'screen_name': u'username1',
                     u'id': 1234567,
                     u'name': u'user name 1',
                     u'id_str': u'1234567'},

                    {u'indices': [108, 116],
                     u'screen_name': u'username2',
                     u'id': 112233,
                     u'name': u'user name 2',
                     u'id_str': u'112233'}],

 u'hashtags': [],
 u'urls': [{u'url': u'http://www.url.com',
            u'indices': [83, 103],
            u'expanded_url': u'http://www.url.com',
            u'display_url': u'http://www.url.com'}]
}
Run Code Online (Sandbox Code Playgroud)

有谁知道如何删除用户提及和网址?非常感谢!

python

1
推荐指数
1
解决办法
8528
查看次数

标签 统计

python ×2

scikit-learn ×1

svm ×1