你能用http://www.nltk.org/code向我展示一个简单的例子,以确定一个字符串是否有关于快乐或心烦的情绪?
不。
这是一项远远超出 NLTK 或任何已知或可以现实想象的语法解析器能力的任务。查看NLTK 书籍,看看它可以完成哪些类型的任务,而这些任务与您既定的目的相去甚远。
举一个便宜的例子:
我真的很喜欢用你的论文来训练我的狗。
用 NLTK 解析它,你可以得到
[('I', 'PRP'), ('really', 'RB'), ('enjoyed', 'VBD'),
('using', 'VBG'), ('your', 'PRP$'), ('paper', 'NN'),
('to', 'TO'), ('train', 'VB'), ('my', 'PRP$'), ('dog', 'NN')]
Run Code Online (Sandbox Code Playgroud)
解析树会告诉我“享受”是简单句子的中心(过去时)动词。享受某事是好的。训练一些东西通常是一件好事。动名词、名词、比较级等都是相对中性的。所以给这个评分 0.90。
但我的意思是,我要么用你的纸打我的狗,要么让它在纸上排泄,你可能会认为这不是一件好事。
雇用一个人来执行此识别任务。
为那些认为经过训练的分类器也很有用的人添加:
使用在您喜欢的任何数据集上训练的任何分类器,对来自真实客户评论语料库的真实条目进行分类:
该相机在自动模式下持续自动对焦,并发出无法停止的嗡嗡声。如果他们能够提供停止自动对焦的选项,那就太好了。如果您想在图像上显示日期和时间,只能通过他们的软件从图像的元数据中读取图像的日期和时间。因此,如果您使用读卡器并复制图像 - 您必须再次通过他们的软件打开它们以输入日期和时间。在这种情况下,也没有直接的方法来添加日期和时间 - 你必须说“打印图像”到另一个目录,其中有一个选项可以指定日期和时间。即使是最轻微的晃动也会完全扭曲您的图像。室内图像不太清晰。即使你的房间光线充足,你也必须“打开”闪光灯才能看到它。镜头盖确实很烦人。拍摄的电影剪辑中总会有一些“噪音”——这是你无法避免的。
我获得的最糟糕的情绪分类是“完全模棱两可”,但人们可以很容易地确定这绝不是赞美。这不是随机挑选的数据,而是为没有“仇恨”或“suxz”或类似内容的负面偏见而选择的数据。