小编UN2*_*758的帖子

如何通过pandas中的read_parquet()过滤一些数据?

我想通过过滤一些 gid 来减少加载内存的使用

reg_df = pd.read_parquet('/data/2010r.pq',
                             columns=['timestamp', 'gid', 'uid', 'flag'])
Run Code Online (Sandbox Code Playgroud)

但是在文档中 kwargs 还没有显示。例如:

gid=[100,101,102,103,104,105]
gid_i_want_load = [100,103,105]
Run Code Online (Sandbox Code Playgroud)

那么,我怎样才能只加载我想计算的 gid 呢?

pandas parquet

5
推荐指数
1
解决办法
5641
查看次数

如何在gensim中使用build_vocab?

  1. Build_vocab 扩展我的旧词汇?

例如,我的想法是当我使用 doc2vec(s) 来训练模型时,它只是从数据集中构建词汇表。如果我想扩展它,我需要使用 build_vocab()

  1. 我应该在哪里使用它?我应该把它放在“gensim.doc2vec()”之后吗?

例如:

sentences = gensim.models.doc2vec.TaggedLineDocument(f_path)
dm_model = gensim.models.doc2vec.Doc2Vec(sentences, dm=1, size=300, window=8, min_count=5, workers=4)
dm_model.build_vocab()
Run Code Online (Sandbox Code Playgroud)

nlp gensim word2vec doc2vec

3
推荐指数
1
解决办法
7573
查看次数

如何让所有工人在dask中执行相同的任务?

我想让所有工人做同样的任务,像这样:

from dask import distributed
from distributed import Client,LocalCluster
import dask
import socket


def writer(filename,data):
    with open(filename,'w') as f:
        f.writelines(data)

def get_ip(x):
    return socket.gethostname()
    #writer('/data/1.txt',a)
client = Client('192.168.123.1:8786')

A=client.submit(get_ip, 0,workers=['w1','w2'], pure=False)
print(client.ncores(),
        client.scheduler_info()
#       dask.config.get('distributed')
     )
A.result()  
Run Code Online (Sandbox Code Playgroud)

我有 2 个工人,但只打印 1 个工人的主机名

dask dask-distributed

2
推荐指数
1
解决办法
952
查看次数

标签 统计

dask ×1

dask-distributed ×1

doc2vec ×1

gensim ×1

nlp ×1

pandas ×1

parquet ×1

word2vec ×1