我正在尝试使用NLTK工具包从文本消息中获取提取位置,日期和时间.我刚刚在我的机器上安装了工具包,我编写了这个快速片段来测试它:
sentence = "Let's meet tomorrow at 9 pm";
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print nltk.ne_chunk(pos_tags, binary=True)
Run Code Online (Sandbox Code Playgroud)
我假设它将确定日期(明天)和时间(晚上9点).但令人惊讶的是,它未能认识到这一点.运行上面的代码时,我得到以下结果:
(S (GPE Let/NNP) 's/POS meet/NN tomorrow/NN at/IN 9/CD pm/NN)
Run Code Online (Sandbox Code Playgroud)
有人可以帮助我理解我是否遗漏了某些东西,或者NLTK还不够成熟,无法正确标记时间和日期.谢谢!
text-processing nlp machine-learning named-entity-recognition nltk
我想知道如何在Windows 7 x64上安装Theano on Anaconda Python 2.7 x64.Theano网站提供了一些说明,但不清楚Anaconda的具体内容.
如何在GitHub桌面中一次丢弃所有更改?(我在Windows上使用它)
我曾经做过:
但由于GitHub for Windows无声升级(并在途中将其名称更改为GitHub Desktop),因此无法再看到该选项.
我不想一个接一个地为每个文件手动执行此操作.我知道我可以使用git shell.
我使用最新版本的GitHub Desktop,即.3.0.1.1.
可以使用命令docker system df
(镜像)(在Docker 1.13.0中引入)来查看docker磁盘使用情况,例如:
username@server:~$ docker system df
TYPE TOTAL ACTIVE SIZE RECLAIMABLE
Images 44 28 114.7GB 84.84GB (73%)
Containers 86 7 62.43GB 41.67GB (66%)
Local Volumes 2 1 0B 0B
Build Cache 0B 0B
Run Code Online (Sandbox Code Playgroud)
计算中如何显示"RECLAIMABLE" docker system df
?即,它代表什么?
关于docker system df
(镜像)的Docker 文档没有解释它.所述多克尔词汇表(镜)不包含的术语"可回收".
我需要为包含以下文本的文本文件计算Unigrams,BiGrams和Trigrams:
"囊性纤维化仅影响美国3万名儿童和青少年.吸入盐水雾可减少充满囊性纤维化患者呼吸道的脓液和感染,但副作用包括令人讨厌的咳嗽和严酷的味道.这就是结论在本周出版的"新英格兰医学杂志"上发表的两项研究."
我从Python开始并使用以下代码:
#!/usr/bin/env python
# File: n-gram.py
def N_Gram(N,text):
NList = [] # start with an empty list
if N> 1:
space = " " * (N-1) # add N - 1 spaces
text = space + text + space # add both in front and back
# append the slices [i:i+N] to NList
for i in range( len(text) - (N - 1) ):
NList.append(text[i:i+N])
return NList # return the list
# test code
for i in range(5):
print …
Run Code Online (Sandbox Code Playgroud) 我正在阅读http://deeplearning.net/tutorial/logreg.html上给出的逻辑函数的代码.我对函数的inputs
&givens
变量之间的区别感到困惑.计算模型在小批量上所犯错误的函数是:
test_model = theano.function(inputs=[index],
outputs=classifier.errors(y),
givens={
x: test_set_x[index * batch_size: (index + 1) * batch_size],
y: test_set_y[index * batch_size: (index + 1) * batch_size]})
validate_model = theano.function(inputs=[index],
outputs=classifier.errors(y),
givens={
x: valid_set_x[index * batch_size:(index + 1) * batch_size],
y: valid_set_y[index * batch_size:(index + 1) * batch_size]})
Run Code Online (Sandbox Code Playgroud)
为什么不能/不会只创建x&y共享输入变量并在创建实际模型实例时定义它们?
有没有办法一次获取NumPy数组中的几个元素的索引?
例如
import numpy as np
a = np.array([1, 2, 4])
b = np.array([1, 2, 3, 10, 4])
Run Code Online (Sandbox Code Playgroud)
我想找到a
in 中每个元素的索引b
,即:[0,1,4]
.
我发现我使用的解决方案有点冗长:
import numpy as np
a = np.array([1, 2, 4])
b = np.array([1, 2, 3, 10, 4])
c = np.zeros_like(a)
for i, aa in np.ndenumerate(a):
c[i] = np.where(b==aa)[0]
print('c: {0}'.format(c))
Run Code Online (Sandbox Code Playgroud)
输出:
c: [0 1 4]
Run Code Online (Sandbox Code Playgroud) 是否可以使用argparse
捕获任意一组可选参数?
例如,以下两者都应被接受为输入:
python script.py required_arg1 --var1 value1 --var2 value2 --var3 value3
python script.py required_arg1 --varA valueA --var2 value2 --varB valueB
Run Code Online (Sandbox Code Playgroud)
先验我不知道将指定哪些可选参数接收但会相应地处理它们.
k skipgram是ngram,它是所有ngrams和每个(ki)skipgram的超集,直到(ki)== 0(包括0跳过克).那么如何在python中有效地计算这些跳过头文件呢?
以下是我尝试的代码,但它没有按预期执行:
<pre>
input_list = ['all', 'this', 'happened', 'more', 'or', 'less']
def find_skipgrams(input_list, N,K):
bigram_list = []
nlist=[]
K=1
for k in range(K+1):
for i in range(len(input_list)-1):
if i+k+1<len(input_list):
nlist=[]
for j in range(N+1):
if i+k+j+1<len(input_list):
nlist.append(input_list[i+k+j+1])
bigram_list.append(nlist)
return bigram_list
</pre>
Run Code Online (Sandbox Code Playgroud)
上面的代码无法正确呈现,但print find_skipgrams(['all', 'this', 'happened', 'more', 'or', 'less'],2,1)
提供以下输出
[['this','发生','更多'],['发生','更多','或',['更多','或','更少'],['或','更少'',['less'],['发生','更多','或'],['更多','或','更少',['或','更少'],['更少'], ['减']]
此处列出的代码也没有给出正确的输出:https: //github.com/heaven00/skipgram/blob/master/skipgram.py
print skipgram_ndarray("你叫什么名字")给出:['什么,是','是,你的','你的名字','名字','什么,你的','是,名字']
名字是一个unigram!