使用python快速实现字符n-gram

Question

使用python快速实现字符n-gram

我编写了以下用于计算字符双字母的代码,输出就在下面.我的问题是,如何获得排除最后一个字符(即t)的输出？有没有更快更有效的计算字符n-gram的方法？

b='student'
>>> y=[]
>>> for x in range(len(b)):
    n=b[x:x+2]
    y.append(n)
>>> y
['st', 'tu', 'ud', 'de', 'en', 'nt', 't']

Run Code Online (Sandbox Code Playgroud)

这是我想得到的结果:['st','tu','ud','de','nt]

提前感谢您的建议.

Answer 1

NPE*_*NPE 38

要生成双字母:

In [8]: b='student'

In [9]: [b[i:i+2] for i in range(len(b)-1)]
Out[9]: ['st', 'tu', 'ud', 'de', 'en', 'nt']

Run Code Online (Sandbox Code Playgroud)

概括为不同的n:

In [10]: n=4

In [11]: [b[i:i+n] for i in range(len(b)-n+1)]
Out[11]: ['stud', 'tude', 'uden', 'dent']

Run Code Online (Sandbox Code Playgroud)

Answer 2

alv*_*vas 7

试试zip:

>>> def word2ngrams(text, n=3, exact=True):
...   """ Convert text into character ngrams. """
...   return ["".join(j) for j in zip(*[text[i:] for i in range(n)])]
... 
>>> word2ngrams('foobarbarblacksheep')
['foo', 'oob', 'oba', 'bar', 'arb', 'rba', 'bar', 'arb', 'rbl', 'bla', 'lac', 'ack', 'cks', 'ksh', 'she', 'hee', 'eep']

Run Code Online (Sandbox Code Playgroud)

但请注意它的速度较慢:

import string, random, time

def zip_ngrams(text, n=3, exact=True):
  return ["".join(j) for j in zip(*[text[i:] for i in range(n)])]

def nozip_ngrams(text, n=3):
    return [text[i:i+n] for i in range(len(text)-n+1)]

# Generate 10000 random strings of length 100.
words = [''.join(random.choice(string.ascii_uppercase) for j in range(100)) for i in range(10000)]

start = time.time()
x = [zip_ngrams(w) for w in words]
print time.time() - start

start = time.time()
y = [nozip_ngrams(w) for w in words]
print time.time() - start        

print x==y

Run Code Online (Sandbox Code Playgroud)

[OUT]:

0.314492940903
0.197558879852
True

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，4 月前
查看次数：	15503 次
最近记录：	6 年，9 月前