小编Mic*_*ber的帖子

快速n-gram计算

我正在使用NLTK在语料库中搜索n-gram,但在某些情况下需要很长时间.我注意到计算n-gram在其他包中并不常见(显然Haystack有一些功能).这是否意味着如果我放弃NLTK,我的语料库中有更快的方法可以找到n-gram?如果是这样,我可以用什么来加快速度?

python nlp nltk n-gram

18
推荐指数
2
解决办法
1万
查看次数

理解numpy中奇怪的布尔2d数组索引行为

为什么这样做:

a=np.random.rand(10,20)
x_range=np.arange(10)
y_range=np.arange(20)

a_tmp=a[x_range<5,:]
b=a_tmp[:,np.in1d(y_range,[3,4,8])]
Run Code Online (Sandbox Code Playgroud)

这不是:

a=np.random.rand(10,20)
x_range=np.arange(10)
y_range=np.arange(20)    

b=a[x_range<5,np.in1d(y_range,[3,4,8])]
Run Code Online (Sandbox Code Playgroud)

python numpy

17
推荐指数
2
解决办法
7298
查看次数

Matlab数据默认停靠

在Matlab中,可以将图形窗口停靠在主窗口中.如果有多个数字,则每个数字都显示在不同的"标签"中.

是否可以设置系统以便默认创建所有图形窗口?

matlab matlab-figure

14
推荐指数
1
解决办法
2万
查看次数

确定源文件中使用的选项卡宽度有什么好的启发式算法?

我想确定源文件中使用的标签宽度用空格缩进.这对于具有特别规则缩进的文件并不难,其中前导空格仅用于缩进,始终是制表符宽度的倍数,并且缩进在时间上增加一个级别.但是许多文件会偏离这种常规缩进,通常用于某种形式的垂直对齐.因此,我正在寻找一种良好的启发式算法,以估计使用的标签宽度,允许一些不规则缩进的可能性.

这样做的动机是为SubEthaEdit编辑器编写扩展.不幸的是,SubEthaEdit没有使标签宽度可用于编写脚本,所以我将根据文本猜测它.

一个合适的启发式应该:

  • 表现足够好,可以互动使用.我不认为这会是一个问题,如果需要,只能使用一部分文本.
  • 与语言无关.
  • 返回最合适的标签宽度.例如,任何选项卡宽度为四个空格的文件也可以是具有两个空格选项卡的文件,如果每个缩进实际上是两倍的级别.显然,四个空间将是正确的选择.
  • 如果压痕完全正常,请务必正确使用.

一些简化因素:

  • 可以假设至少一行是缩进的.
  • 标签宽度可以假设为至少两个空格.
  • 可以安全地假设缩进仅使用空格.这并不是说我有任何反对标签的东西 - 恰恰相反,我会首先检查是否有任何用于缩进的标签并单独处理它.这确实意味着缩进混合标签和空格可能无法正确处理,但我认为这并不重要.
  • 可以假设没有包含空格的行.
  • 并非所有语言都需要正确处理.例如,使用像lisp和go这样的语言的成功或失败将完全无关紧要,因为它们通常不会手工缩进.
  • 完美不是必需的.如果偶尔需要手动调整几条线,世界就不会结束.

你会采取什么方法,你认为它的优点和缺点是什么?

如果要在答案中提供工作代码,最好的方法可能是使用从脚本文件读取源文件stdin并将选项卡宽度写入的shell脚本stdout.伪代码或单词中的清晰描述也会很好.

一些结果

为了测试不同的策略,我们可以对标准库中的文件应用不同的策略来进行语言分发,因为它们可能遵循语言的标准缩进.我将考虑Python 2.7和Ruby 1.8库(系统框架安装在Mac OS X 10.7上),它们的预期宽度分别为4和2.排除的是那些包含以制表符开头的行或者没有以至少两个空格开头的行的文件.

蟒蛇:

                     Right  None  Wrong
Mode:                 2523     1    102
First:                2169     1    456
No-long (12):         2529     9     88
No-long (8):          2535    16     75
LR (changes):         2509     1    116
LR (indent):          1533     1   1092
Doublecheck (10):     2480    15    130
Doublecheck (20):     2509    15    101
Run Code Online (Sandbox Code Playgroud)

红宝石:

                     Right  None  Wrong
Mode:                  594    29     51
First: …
Run Code Online (Sandbox Code Playgroud)

language-agnostic heuristics indentation

12
推荐指数
1
解决办法
582
查看次数

什么是可以同时绘制界面构建器?

我从未使用过可以在iterface builder中提到的并发选项.见下图:

在此输入图像描述

有人可以解释一下它的用途和用途吗?

macos xcode cocoa objective-c interface-builder

12
推荐指数
1
解决办法
3963
查看次数

在2D矩阵中排列3个字母的单词,使每行,列和对角线形成一个单词

您将获得一个包含3个字母单词的字典,并且必须找到3x3的矩阵,以便每个行,列和对角线在字典中形成一个单词.字典中的单词已排序,您可以假设O(1)时间从字典中检索单词.

这被问到Facebook面试问题.

string algorithm dictionary

11
推荐指数
1
解决办法
2883
查看次数

哪里可以找到Microsoft Outlook 2011中AppleScript可用的命令/属性

有谁知道我在哪里可以找到Microsoft Outlook 2011的可用AppleScript命令/属性列表?

我正在尝试将打开的邮件的主题复制到剪贴板,并将邮件作为PDF保存到我的桌面,主题为文件名.

谢谢.

applescript

10
推荐指数
1
解决办法
1万
查看次数

Ruby中用于"String #include?"的算法

有人能够确定哪个算法用于包含?Ruby中的方法?例如

"helloworld".include?("hello")
Run Code Online (Sandbox Code Playgroud)

ruby algorithm search substring

10
推荐指数
3
解决办法
828
查看次数

替换sed中的多行模式

我只是想做以下

更换

EXTRATHING {
};
Run Code Online (Sandbox Code Playgroud)

通过

SOMETHING {};
Run Code Online (Sandbox Code Playgroud)

在inputfile中.为此,我试过了

sed -e 's/EXTRATHING {\n};/SOMETHING/' input_file.txt  >outfile.txt
Run Code Online (Sandbox Code Playgroud)

这不起作用.有人可以建议用sed这样做的正确方法是什么?

sed

10
推荐指数
1
解决办法
3万
查看次数

使用virtualenv在debian中守护python脚本

我已经看到很多用于在linux中守护python脚本的脚本,但没有太多关于如何使用它们的信息.谁能指导我这个?

我目前有一个冗长的python脚本,它侦听传入消息的套接字,如果正确的格式接受它,然后将其存储到数据库中.脚本本身只是打开套接字,然后一会儿就听(这就是工作!)并完成所有工作.

要守护它,我是否必须修改当前脚本或从单独的脚本调用它?我见过这两个例子,但都没有工作.

另外,我正在使用virtualenv,这可能是我的问题的根源,任何提示与守护程序脚本一起使用它?

python linux debian daemon virtualenv

8
推荐指数
2
解决办法
1万
查看次数