好吧,我最近对自然语言处理非常感兴趣:但是,在我的大部分工作中,我一直使用C语言.我听说过NLTK,我不懂Python,但它似乎很容易学习,它看起来像一个非常强大和有趣的语言.特别是,NLTK模块似乎非常适合我需要做的事情.
但是,当使用NLTK的示例代码并将其粘贴到一个名为的文件中时test.py,我注意到它需要非常长的时间才能运行!
我是这样从shell调用的:
time python ./test.py
Run Code Online (Sandbox Code Playgroud)
在具有4 GB RAM的2.4 GHz机器上,需要19.187秒!
现在,也许这是绝对正常的,但我的印象是NTLK 非常快; 我可能错了,但是有什么明显的东西我在这里显然做错了吗?
我在Weka中训练了一个分类器,我可以在测试数据上使用它.此外,我可以选择在日志窗口中显示此测试数据的分类器预测.
但是,对于我当前的项目,能够以CSV格式获取此数据将非常方便.这可能在Weka?是否只有在使用命令行时才能实现(我最终会走向)?
我总是可以将整个缓冲区结果保存到文本文件中,但在这种情况下,我必须解析文件并删除所有"噪音"(这不是真正的噪音,但你明白了).
那么,总而言之,有没有办法将Weka对测试集的预测输出到CSV文件?
编辑:如下面的答案所示,有一个选项可以做到这一点.但是,它只能在Weka 3.7及以上版本中找到!
我有一个非常简单的问题,我把头发拉过来.我试图动画NSButton的移动.现在,我意识到这几乎过于简单:
[[button animator] setFrame:newCGRect];
Run Code Online (Sandbox Code Playgroud)
但是,我想增加按钮行进所需的时间.所以,我研究了稍微复杂的CABasicAnimation.我想我正在做的一切都正确,但NSButton根本就没有动.
CGPoint center = CGPointMake(10, 20);
CALayer *layer = button.layer;
layer.position = CGPointMake(button.frame.size.width / 2, button.frame.size.height / 2);
CABasicAnimation *animation = [CABasicAnimation animationWithKeyPath:@"position"];
animation.fromValue = [layer valueForKey:@"position"];
[animation setToValue:[NSValue valueWithPoint:center]];
[animation setFillMode:kCAFillModeForwards];
[animation setRemovedOnCompletion:NO];
[animation setDuration:3.0];
[layer addAnimation:animation forKey:@"position"];
Run Code Online (Sandbox Code Playgroud)
这里,按钮是NSButton.我正在将图层的位置设置到按钮的中心,因为我认为 "位置"必须指向中心.然后,我正在做的就是移动(据说)按钮到中心,在一个3秒长的动画中.我将动画添加到图层,然后没有任何反应.
现在,有人知道我做错了什么吗?或者,在旁注中,无论如何都使用动画属性并设置动画的长度?
我目前正在尝试使用NLTK中的朴素贝叶斯分类器对推文进行分类.我正在使用'$'前缀(例如:$ AAPL)对与特定股票代码相关的推文进行分类.我一直在基于这篇博文的Python脚本:使用Python和NLTK进行Twitter情感分析.到目前为止,我已经取得了相当不错的成绩.但是,我觉得还有很多很大的改进空间.
在我的单词特征选择方法中,我决定实现tf-idf算法来选择信息量最大的单词.在完成这个之后,我觉得结果并不那么令人印象深刻.
然后,我在以下博客上实现了该技术:文本分类情感分析消除低信息功能.结果与使用tf-idf算法获得的结果非常相似,这使我更彻底地检查了我的分类器的"最具信息性特征"列表.就在那时我意识到我遇到了一个更大的问题:
推文和真实语言不使用相同的语法和措辞.在普通文本中,可以使用tf-idf或停用词来挑选出许多文章和动词.然而,在推文语料库中,一些非常无信息的词语,例如"the","and","is"等等,与正确分类文本至关重要的词语一样多.我不能只删除少于3个字母的所有单词,因为一些无信息的特征比那些更大,而一些信息丰富的特征更小.
如果可以的话,我不想使用停用词,因为需要经常更新列表.但是,如果这是我唯一的选择,我想我必须坚持下去.
那么,总结一下我的问题,是否有人知道如何真正获得特定来源中最具信息性的词语是Tweet?
编辑:我正在尝试分为三组:积极,消极和中立.另外,我想知道,对于TF-IDF,我应该只删除分数较低的单词,还是分数较高的单词?在每种情况下,您将从特征选择过程中排除文本源词汇的百分比?
好吧,这是我遇到的一个奇怪的问题.我有两个页面,略有不同,但共享几个相同的元素(两个图像,基本上).
这些图像都由相同的CSS样式表控制,但是,它们在第二页上似乎都低约20-30像素.
第二页的不同之处在于它在Doctype声明之前使用PHP .但是,如后所述,我不认为这是问题所在.
要查看此效果,请连续查看这两个页面:http://www.codecreek.biz/login和http://www.codecreek.biz/registration/register.
为了清楚起见,我已经看过很多可能的答案.这似乎不是我的情况,因为我没有在这些页面上使用表格.
这是我尝试过的:
?>与之间的空白<!DOCTYPE HTML>.这再次没有任何效果.此外,Safari的开发人员检查工具清楚地显示<body>我的第二页上的标签仅开始大约20像素.
老实说,我很丢失.我希望有一个简单的解决办法,但我一直在努力这几个小时无济于事.
编辑:这是CSS,包括'标题'图像和'波浪线'图像.
#login_title { position:absolute; width:1000px; top:100px; }
#login_line { position:absolute; width:500px; top:330px; left:250px; }
Run Code Online (Sandbox Code Playgroud) 我正在尝试更改我创建的 NSButton 子类的字体。当我使用以下代码设置实际按钮时,我可以设置字体:
[button setFont:[NSFont fontWithName:@"Courier" size:15]];
Run Code Online (Sandbox Code Playgroud)
但是,当我稍后尝试在我的应用程序中执行此操作时,它不起作用。
我试图让用户选择一种新字体;一旦他们完成此操作,我想更新此按钮以使用所选字体。
我知道我的字体选择过程不是问题,因为我可以将其他 UI 项目的字体更改为用户选择的字体。
此外,我认为问题是由于我的子类正在经历 CABasicAnimation,但当我删除动画时,它仍然不起作用。此外,我什至可以在动画运行时更改按钮的字体颜色。
最后,我确定我的插座连接正确。
那么问题可能出在哪里呢?过去有人遇到过类似的问题吗?