小编ell*_*zan的帖子

NLTK表现

好吧,我最近对自然语言处理非常感兴趣:但是,在我的大部分工作中,我一直使用C语言.我听说过NLTK,我不懂Python,但它似乎很容易学习,它看起来像一个非常强大和有趣的语言.特别是,NLTK模块似乎非常适合我需要做的事情.

但是,当使用NLTK的示例代码并将其粘贴到一个名为的文件中时test.py,我注意到它需要非常长的时间才能运行!

我是这样从shell调用的:

time python ./test.py
Run Code Online (Sandbox Code Playgroud)

在具有4 GB RAM的2.4 GHz机器上,需要19.187秒!

现在,也许这是绝对正常的,但我的印象是NTLK 非常快; 我可能错了,但是有什么明显的东西我在这里显然做错了吗?

python performance nlp nltk

9
推荐指数
2
解决办法
4675
查看次数

Weka对CSV的预测

我在Weka中训练了一个分类器,我可以在测试数据上使用它.此外,我可以选择在日志窗口中显示此测试数据的分类器预测.

但是,对于我当前的项目,能够以CSV格式获取此数据将非常方便.这可能在Weka?是否只有在使用命令行时才能实现(我最终会走向)?

我总是可以将整个缓冲区结果保存到文本文件中,但在这种情况下,我必须解析文件并删除所有"噪音"(这不是真正的噪音,但你明白了).

那么,总而言之,有没有办法将Weka对测试集的预测输出到CSV文件?

编辑:如下面的答案所示,有一个选项可以做到这一点.但是,它只能在Weka 3.7及以上版本中找到!

csv classification weka output

9
推荐指数
2
解决办法
2万
查看次数

CABasicAnimation没有任何影响

我有一个非常简单的问题,我把头发拉过来.我试图动画NSButton的移动.现在,我意识到这几乎过于简单:

[[button animator] setFrame:newCGRect];
Run Code Online (Sandbox Code Playgroud)

但是,我想增加按钮行进所需的时间.所以,我研究了稍微复杂的CABasicAnimation.我我正在做的一切都正确,但NSButton根本就没有动.

CGPoint center = CGPointMake(10, 20);

CALayer *layer = button.layer;

layer.position = CGPointMake(button.frame.size.width / 2, button.frame.size.height / 2);

CABasicAnimation *animation = [CABasicAnimation animationWithKeyPath:@"position"];
animation.fromValue = [layer valueForKey:@"position"];
[animation setToValue:[NSValue valueWithPoint:center]];
[animation setFillMode:kCAFillModeForwards];
[animation setRemovedOnCompletion:NO];
[animation setDuration:3.0];

[layer addAnimation:animation forKey:@"position"];
Run Code Online (Sandbox Code Playgroud)

这里,按钮是NSButton.我正在将图层的位置设置到按钮的中心,因为我认为 "位置"必须指向中心.然后,我正在做的就是移动(据说)按钮到中心,在一个3秒长的动画中.我将动画添加到图层,然后没有任何反应.

现在,有人知道我做错了什么吗?或者,在旁注中,无论如何都使用动画属性设置动画的长度?

cocoa core-animation objective-c

5
推荐指数
1
解决办法
1097
查看次数

推特分类器功能选择NLTK

我目前正在尝试使用NLTK中的朴素贝叶斯分类器对推文进行分类.我正在使用'$'前缀(例如:$ AAPL)对与特定股票代码相关的推文进行分类.我一直在基于这篇博文的Python脚本:使用Python和NLTK进行Twitter情感分析.到目前为止,我已经取得了相当不错的成绩.但是,我觉得还有很多很大的改进空间.

在我的单词特征选择方法中,我决定实现tf-idf算法来选择信息量最大的单词.在完成这个之后,我觉得结果并不那么令人印象深刻.

然后,我在以下博客上实现了该技术:文本分类情感分析消除低信息功能.结果与使用tf-idf算法获得的结果非常相似,这使我更彻底地检查了我的分类器的"最具信息性特征"列表.就在那时我意识到我遇到了一个更大的问题:

推文和真实语言不使用相同的语法和措辞.在普通文本中,可以使用tf-idf或停用词来挑选出许多文章和动词.然而,在推文语料库中,一些非常无信息的词语,例如"the","and","is"等等,与正确分类文本至关重要的词语一样多.我不能只删除少于3个字母的所有单词,因为一些无信息的特征比那些更大,而一些信息丰富的特征更小.

如果可以的话,我不想使用停用词,因为需要经常更新列表.但是,如果这是我唯一的选择,我想我必须坚持下去.

那么,总结一下我的问题,是否有人知道如何真正获得特定来源中最具信息性的词语是Tweet?

编辑:我正在尝试分为三组:积极,消极和中立.另外,我想知道,对于TF-IDF,我应该只删除分数较低的单词,还是分数较高的单词?在每种情况下,您将从特征选择过程中排除文本源词汇的百分比?

python twitter classification machine-learning nltk

5
推荐指数
1
解决办法
5266
查看次数

页面顶部的奇怪空白 - HTML,CSS和PHP

好吧,这是我遇到的一个奇怪的问题.我有两个页面,略有不同,但共享几个相同的元素(两个图像,基本上).

这些图像都由相同的CSS样式表控制,但是,它们在第二页上似乎都低约20-30像素.

第二页的不同之处在于它在Doctype声明之前使用PHP .但是,如后所述,我不认为这是问题所在.

要查看此效果,请连续查看这两个页面:http://www.codecreek.biz/loginhttp://www.codecreek.biz/registration/register.

为了清楚起见,我已经看过很多可能的答案.似乎不是我的情况,因为我没有在这些页面上使用表格.

这是我尝试过的:

  • 检查代码中的空格.但是,如果您查看这两个页面的来源,您实际上会注意到第二个有问题的页面在其Doctype声明之前在顶部有一个较少的空白行.
  • 从第二页删除PHP代码.这也没有任何影响.
  • 减少关闭PHP标记?>与之间的空白<!DOCTYPE HTML>.这再次没有任何效果.
  • 检查BOM.我使用vim做了这个,结果证实没有使用BOM.
  • 检查我的CSS.我没有发现任何奇怪的东西,但我是CSS的新手,所以,因为这可能是问题,这里是我的样式表的链接:http://www.codecreek.biz/resources/main.css.(免责声明:我正在重写该页面,所以如果它看起来很奇怪,你去吧!).

此外,Safari的开发人员检查工具清楚地显示<body>我的第二页上的标签仅开始大约20像素.

老实说,我很丢失.我希望有一个简单的解决办法,但我一直在努力这几个小时无济于事.

编辑:这是CSS,包括'标题'图像和'波浪线'图像.

#login_title { position:absolute; width:1000px; top:100px; }
#login_line { position:absolute; width:500px; top:330px; left:250px; }
Run Code Online (Sandbox Code Playgroud)

html css php whitespace

4
推荐指数
1
解决办法
6370
查看次数

无法更改 NSButton 字体

我正在尝试更改我创建的 NSButton 子类的字体。当我使用以下代码设置实际按钮时,我可以设置字体:

    [button setFont:[NSFont fontWithName:@"Courier" size:15]];
Run Code Online (Sandbox Code Playgroud)

但是,当我稍后尝试在我的应用程序中执行此操作时,它不起作用。

我试图让用户选择一种新字体;一旦他们完成此操作,我想更新此按钮以使用所选字体。

我知道我的字体选择过程不是问题,因为我可以将其他 UI 项目的字体更改为用户选择的字体。

此外,我认为问题是由于我的子类正在经历 CABasicAnimation,但当我删除动画时,它仍然不起作用。此外,我什至可以在动画运行时更改按钮的字体颜色。

最后,我确定我的插座连接正确。

那么问题可能出在哪里呢?过去有人遇到过类似的问题吗?

cocoa objective-c nsbutton nsfont

2
推荐指数
1
解决办法
3569
查看次数