小编UN2*_*758的帖子

如何通过pandas中的read_parquet()过滤一些数据？

我想通过过滤一些 gid 来减少加载内存的使用

reg_df = pd.read_parquet('/data/2010r.pq',
                             columns=['timestamp', 'gid', 'uid', 'flag'])

Run Code Online (Sandbox Code Playgroud)

但是在文档中 kwargs 还没有显示。例如：

gid=[100,101,102,103,104,105]
gid_i_want_load = [100,103,105]

Run Code Online (Sandbox Code Playgroud)

那么，我怎样才能只加载我想计算的 gid 呢？

pandas parquet

UN2*_*758

2018 08-20

5
推荐指数

1
解决办法

5641
查看次数

如何在gensim中使用build_vocab？

Build_vocab 扩展我的旧词汇？

例如，我的想法是当我使用 doc2vec(s) 来训练模型时，它只是从数据集中构建词汇表。如果我想扩展它，我需要使用 build_vocab()

我应该在哪里使用它？我应该把它放在“gensim.doc2vec()”之后吗？

例如：

sentences = gensim.models.doc2vec.TaggedLineDocument(f_path)
dm_model = gensim.models.doc2vec.Doc2Vec(sentences, dm=1, size=300, window=8, min_count=5, workers=4)
dm_model.build_vocab()

Run Code Online (Sandbox Code Playgroud)

nlp gensim word2vec doc2vec

UN2*_*758

2020 01-29

3
推荐指数

1
解决办法

7573
查看次数

如何让所有工人在dask中执行相同的任务？

我想让所有工人做同样的任务，像这样：

from dask import distributed
from distributed import Client,LocalCluster
import dask
import socket


def writer(filename,data):
    with open(filename,'w') as f:
        f.writelines(data)

def get_ip(x):
    return socket.gethostname()
    #writer('/data/1.txt',a)
client = Client('192.168.123.1:8786')

A=client.submit(get_ip, 0,workers=['w1','w2'], pure=False)
print(client.ncores(),
        client.scheduler_info()
#       dask.config.get('distributed')
     )
A.result()

Run Code Online (Sandbox Code Playgroud)

我有 2 个工人，但只打印 1 个工人的主机名

dask dask-distributed

UN2*_*758

lucky-day

2
推荐指数

1
解决办法

952
查看次数