小编Tim*_*ara的帖子

如何更快地计算nltk plaintextcorpus中的单词?

我有一组文档,我想返回一个元组列表,其中每个元组具有给定文档的日期以及给定搜索项在该文档中出现的次数.我的代码(下面)有效,但速度很慢,而且我是n00b.是否有明显的方法可以加快速度?任何帮助都会非常感激,主要是因为我可以学习更好的编码,但也可以让我更快地完成这个项目!

def searchText(searchword):
    counts = []
    corpus_root = 'some_dir'
    wordlists = PlaintextCorpusReader(corpus_root, '.*')
    for id in wordlists.fileids():
        date = id[4:12]
        month = date[-4:-2]
        day = date[-2:]
        year = date[:4]
        raw = wordlists.raw(id)
        tokens = nltk.word_tokenize(raw)
        text = nltk.Text(tokens)
        count = text.count(searchword)
        counts.append((month, day, year, count))

    return counts
Run Code Online (Sandbox Code Playgroud)

python nlp corpus nltk

5
推荐指数
1
解决办法
6731
查看次数

我应该为AI和数据挖掘工作学习哪些python库

我正在学习python和django.我需要为数据解析,统计,AI和数据挖掘做大量工作.有许多图书馆可供使用.所以我想知道我应该学习哪个SET.目前我在我心中有以下SET.

  • 解析:美丽的汤
  • 搜索引擎:飞快(它是否会抓取并索引网站?)
  • AI:PyBrain
  • 数据挖掘:橙色(我不确定这个,其他的)

所以我想知道我还需要为这些领域学习什么.或某些人试过的图书馆.基本上我想要我可以在Django中使用的库,我不想要那些不同的框架.

python django statistics data-mining

5
推荐指数
1
解决办法
1748
查看次数

有效地更改Python字典的键

我希望将a的键替换dict为较短的变体,以便它可以以紧凑的形式通过电线发送.有没有办法更新密钥,而不是创建一个新项目dict并删除旧的?

我现在在做什么:

>>> a = dict(long_key=None)
>>> a['l'] = a['long_key']
>>> del a['long_key']
Run Code Online (Sandbox Code Playgroud)

我想做的是这样的事情:

>>> a = dict(long_key=None)
>>> a.update_key('long_key', 'l')
Run Code Online (Sandbox Code Playgroud)

我不确定dict自己的内部情况.但是,似乎 update_key可以避免需要删除旧密钥.

python dictionary

5
推荐指数
1
解决办法
2950
查看次数

我在哪里可以找到'youtube-v3-api-captions.json'发现文档?

我正在尝试使用YouTube API来获取视频字幕,但示例不完整:https://developers.google.com/youtube/v3/code_samples/python#create_and_manage_youtube_video_caption_tracks

具体来说,它有这个评论+代码:

# Trusted testers can download this discovery document from the developers page
# and it should be in the same directory with the code.
with open("youtube-v3-api-captions.json", "r") as f:
  doc = f.read()
  return build_from_document(doc, http=credentials.authorize(httplib2.Http()))
Run Code Online (Sandbox Code Playgroud)

但是根本不清楚youtube-v3-api-captions.json文件的位置.

它在哪里可以找到?

youtube youtube-api youtube-data-api

5
推荐指数
1
解决办法
1669
查看次数

初始化一系列seqs

我是Nim的新手,我遇到了一些问题.以下代码导致SIGSEGV: Illegal storage access. (Attempt to read from nil?).我似乎无法弄清楚如何使用值填充序列序列.

const
  a = @[ 0,  1,  2,  3,  4,  5]
  b = @[10, 11, 12, 13, 14, 15]

var
  matrix: seq[seq[int]]

for i, aa in a:
  for j, bb in b:
    matrix[i][j] = aa+bb
Run Code Online (Sandbox Code Playgroud)

我试过的其他方法似乎更接近......

var
  matrix = newSeq[seq[int]]()

for i, aa in a:
  var row = newSeq[int]()
  for j, bb in b:
    row[i] = aa+bb
  matrix[i] = row
Run Code Online (Sandbox Code Playgroud)

......但现在我正打out of bounds [IndexError]...

var
  matrix = newSeq[seq[int]](5) …
Run Code Online (Sandbox Code Playgroud)

nimrod nim-lang

5
推荐指数
2
解决办法
726
查看次数

可以在Fabric中使用条件执行吗?

是否可以要求面料有条件地执行操作?这应该是相当简单的,因为它只是"Python",但我不是100%确定如何运行命令并捕获它们的返回代码或输出.

作为一个例子,我如何拥有以主机中环境变量的值为条件的行为?

python fabric

4
推荐指数
1
解决办法
1227
查看次数

创建索引 - MongoDB

我的"桌子"看起来像这样:

{'name':'Rupert', 'type':'Unicorn', 'actions':[
    {'time':0, 'position':[0,0], 'action':'run'},
    {'time':50, 'position':[50,0], 'action':'stoprun'},
    {'time':50, 'position':[50,0], 'action':'jump'},
    {'time':55, 'position':[50,0], 'action':'laugh'},
    ...
]}
Run Code Online (Sandbox Code Playgroud)

有什么方法可以索引动作列表中的项目吗?或者我是否必须将它们分成更多的表格?

对于我来说,将动作保持在当前表行中会更方便.

python django mongodb pymongo mongoengine

3
推荐指数
2
解决办法
7432
查看次数

是否有可能创建一个Python列表并假装填充它?

我正在使用Neo4j图形数据库,并希望适应当前的REST库之一.想象一下具有20个节点的数据库的情况.

>>> db = Database("http://localhost:7474")
Run Code Online (Sandbox Code Playgroud)

我希望API尽可能简单,这样就可以得到类似于此的第14个节点:

>>> db[14]
Run Code Online (Sandbox Code Playgroud)

在Neo4j中,每个节点都有一个数字键.这意味着db[14]映射非常好http://localhost:7474/db/data/node/14但是,我不想将数据库中的每个节点加载到db对象中.我首选的行为是查找节点14,如果数据库中不存在该值,则引发IndexError.也就是说,我希望db对象为空,但假装有一个值.

是否有可能制作看起来像a的东西list,但表现却截然不同?

python neo4j

3
推荐指数
1
解决办法
241
查看次数

如何中断(无限)流?

我正在使用ExTwitter库,并希望能够偶尔杀死对流API的调用以更改参数.

我当前的代码看起来像这样:

for tweet <- ExTwitter.stream_filter(track: terms) do
    process_tweet tweet
end
Run Code Online (Sandbox Code Playgroud)

有什么我可以做的表明我不想要更多的消息吗?

elixir twitter-streaming-api

3
推荐指数
1
解决办法
184
查看次数

无法将trait边界添加到结构的成员

我试图添加std::io::Cursor泛型类型的使用R,但保留Read类型边界,以便Read可以访问特征,然后可以支持bytes()方法.

到目前为止,这是我的结构定义:

struct Parse<'parse, R: Read + BufRead + 'parse> {
    tokens: Vec<Token>,
    source: Cursor<&'parse mut R>,
}
Run Code Online (Sandbox Code Playgroud)

假设我有一个变量parser是一个实例Parse,我希望能够调用parser.source.bytes().bytes()是一种方法Read.尽管有注释R,编译器告诉我R不满足std::io::Read特征界限.

以下是上下文中的代码片段以及到操场直接链接:

// using Cursor because it tracks position internally
use std::io::{Cursor, Read, BufRead};

struct Token {
    start: usize,
    end: usize,
}

struct Parse<'parse, R: Read + BufRead + 'parse> {
    tokens: …
Run Code Online (Sandbox Code Playgroud)

generics traits rust

3
推荐指数
1
解决办法
260
查看次数

Neo4j:可以基于整数增量创建节点ID的替代方法吗?

Neo4j的节点倾向于在整数增量的基础上设置.我可以看到这在需要合并多个两个数据库的应用程序中存在问题.是否可以将数据库配置为使用其他格式,例如UUID来标识每个节点?

neo4j

2
推荐指数
1
解决办法
1021
查看次数

python:我怎么知道我什么时候在最后一个周期

for i in range(len(results_histogram)):
    if i!=len(results_histogram)-1:
      url+=str(results_histogram[i])+','
Run Code Online (Sandbox Code Playgroud)

我的if语句正在检查我是否在最后一个循环中,但它不起作用.我究竟做错了什么?

python syntax

-1
推荐指数
1
解决办法
301
查看次数