小编dmc*_*cer的帖子

我有POS用nltk.pos_tag()标记了一些单词,因此它们被赋予了treebank标签.我想使用已知的POS标签对这些词进行词形变换,但我不确定如何.我正在看Wordnet lemmatizer,但我不知道如何将树库POS标签转换为lemmatizer接受的标签.我怎样才能简单地执行这种转换,或者是否有使用树库标签的变形器？

python nlp nltk

asc*_*Pig

2011 03-24

16
推荐指数

2
解决办法

6175
查看次数

我如何操纵解析树？

我一直在玩自然语言解析树并以各种方式操纵它们.我一直在使用斯坦福大学的Tregex和Tsurgeon工具,但代码很混乱,并不适合我的Python环境(这些工具是Java,不适合调整).我想要一个工具集,当我需要更多功能时,它可以轻松进行黑客攻击.还有其他工具非常适合在树上进行模式匹配,然后操纵那些匹配的分支吗？

例如,我想将以下树作为输入:

(ROOT
  (S
    (NP
      (NP (NNP Bank))
      (PP (IN of)
        (NP (NNP America))))
    (VP (VBD used)
      (S
        (VP (TO to)
          (VP (VB be)
            (VP (VBN called)
              (NP
                (NP (NNP Bank))
                (PP (IN of)
                  (NP (NNP Italy)))))))))))

Run Code Online (Sandbox Code Playgroud)

和(这是一个简化的例子):

找到标签为NP的任何节点,其中第一个孩子的标签为NP,一些后代名为"Bank",第二个孩子的标签为PP.
如果匹配,则获取PP节点的所有子节点并将它们移动到匹配的NP子节点的末尾.

例如,采取树的这一部分:

(NP
  (NP (NNP Bank))
  (PP (IN of)
    (NP (NNP America))))

Run Code Online (Sandbox Code Playgroud)

把它变成这个:

(NP
  (NP (NNP Bank) (IN of) (NP (NNP America))))

Run Code Online (Sandbox Code Playgroud)

由于我的输入树是S表达式,我考虑使用Lisp(嵌入到我的Python程序中)但是我已经写了很长时间,我在Lisp中编写了一些重要内容,我不知道从哪里开始.

什么是描述模式的好方法？什么是描述操纵的好方法？什么是思考这个问题的好方法？

lisp nlp pattern-matching stanford-nlp s-expression

gui*_*ism

2010 09-12

15
推荐指数

3
解决办法

3540
查看次数

Java中非常紧凑的Bitarray

我正在寻找一种在Java中存储密集可变长度比特阵的非常紧凑的方法.现在,我正在使用BitSet,但它似乎平均使用1.5*n位存储空间用于大小为n的位向量.通常,这不是问题,但在这种情况下,存储的比特阵列是应用程序的内存占用量非常重要的部分.因此,让它们变得更小一点真的很有帮助.

BitSet所需的空间似乎是由于用于支持数据结构的long数组在每次扩展以容纳更多位时往往会加倍:

// BitSet's resizing code
private void ensureCapacity(int wordsRequired) {
  if (words.length < wordsRequired) {
    // Allocate larger of doubled size or required size
    int request = Math.max(2 * words.length, wordsRequired);
    words = Arrays.copyOf(words, request);
    sizeIsSticky = false;
  }
}

Run Code Online (Sandbox Code Playgroud)

我可以编写自己的BitSet替代实现,更加保守地扩展后端数据结构.但是,如果我不需要,我真的很讨厌复制标准类库中已有的功能.

java memory bit-manipulation bitarray bitset

dmc*_*cer

2010 01-19

14
推荐指数

2
解决办法

5996
查看次数