小编Mai*_*Mai的帖子

Pandas:使用namedtuple列表初始化数据框架的简洁方法

我是熊猫的新手,所以也许我会问一个非常愚蠢的问题.通常,pandas中数据帧的初始化将是列式的,我在其中放入了具有列名称的键和具有相同长度的列表式对象的值的dict.

但是我想在没有动态连接行的情况下初始化行.假设我有一个namedtuple列表,是否有一个优化的操作,它将直接从它给我一个熊猫数据框？

非常感谢

dataframe python-2.7 pandas

Mai*_*Mai

lucky-day

27
推荐指数

3
解决办法

1万
查看次数

Doc2Vec和PySpark:关于DeepDist的Gensim Doc2vec

我在看的DeepDist(链接)模块和思维将其联合Gensim的Doc2VecAPI来训练上段载体PySpark.该链接实际上如何做以下干净的例子提供Gensim的Word2Vec模型:

from deepdist import DeepDist
from gensim.models.word2vec import Word2Vec
from pyspark import SparkContext

sc = SparkContext()
corpus = sc.textFile('enwiki').map(lambda s: s.split())

def gradient(model, sentences):  # executes on workers
    syn0, syn1 = model.syn0.copy(), model.syn1.copy()   # previous weights
    model.train(sentences)
    return {'syn0': model.syn0 - syn0, 'syn1': model.syn1 - syn1}

def descent(model, update):      # executes on master
    model.syn0 += update['syn0']
    model.syn1 += update['syn1']

with DeepDist(Word2Vec(corpus.collect()) as dd:
    dd.train(corpus, gradient, descent) …

Run Code Online (Sandbox Code Playgroud)

gensim apache-spark word2vec pyspark

Mai*_*Mai

2018 06-13

11
推荐指数

1
解决办法

3091
查看次数

Python:更快的索引操作

我有以下片段,它提取序列中所有唯一值(hashable)的data索引,与规范索引一样,并将它们作为列表存储在字典中:

from collections import defaultdict
idx_lists = defaultdict(list)
for idx, ele in enumerate(data):
    idx_lists[ele].append(idx)

Run Code Online (Sandbox Code Playgroud)

这对我来说是一个很常见的用例.而且我的代码执行时间的90%花在了这几行上.该部分在执行期间传递超过10000次,len(data)每次运行时约为50000到100000次.独特元素的数量大致为50到150.

有没有更快的方法,也许是矢量化/ c扩展(例如numpy或pandas方法),实现同样的事情？

非常感谢.

python indexing performance numpy pandas

Mai*_*Mai

2016 01-06

6
推荐指数

2
解决办法

180
查看次数

Python：按索引删除子字符串

我有以下相当简单的片段：

def delete_substring_blocks(s, blocks):                                                                             
  '''                                                                                                                   
      s: original input string                                                                                   
      blocks: list of indices (start, end) to be deleted                                                                

      return string `out` where blocks are deleted from s                                                      
  '''                                                                                                                   
  out = ''                                                                                                              
  p = 0                                                                                                                 
  for start, end in blocks:                                                                                             
      out += s[p:start]                                                                                               
      p = end                                                                                                           
  out += s[p:]                                                                                                        
  return out

Run Code Online (Sandbox Code Playgroud)

此函数接受一个字符串s并s[start:end]从中删除所有内容s，其中(start, end)在列表中给出了索引对blocks。

某处是否有一个内置函数可以做同样的事情？

更新：我的代码中有一个假设：

块按升序按第一个索引排序（由list.sort()就地完成）

至于块是否可以重叠，在我的用例中，我确保它们在调用函数之前不会重叠。但为了好玩，我们也可以假设他们这样做。

python string

Mai*_*Mai

2019 02-14

5
推荐指数

1
解决办法

497
查看次数

Python：对一个函数尝试 3 次，直到全部失败

我在Python2.7写的，遇到如下情况。我想尝试调用一个函数三次。如果所有 3 次都引发错误，我将引发我得到的最后一个错误。如果任何一个调用成功，我将停止尝试并立即继续。

这是我现在所拥有的：

output = None
error = None
for _e in range(3):
    error = None
    try:
        print 'trial %d!' % (_e + 1)
        output = trial_function()
    except Exception as e:
        error = e
    if error is None:
        break
if error is not None:
    raise error

Run Code Online (Sandbox Code Playgroud)

是否有更好的片段可以实现相同的用例？

python error-handling design-patterns

Mai*_*Mai

2014 08-04

2
推荐指数

2
解决办法

3031
查看次数