我想通过过滤一些 gid 来减少加载内存的使用
reg_df = pd.read_parquet('/data/2010r.pq',
columns=['timestamp', 'gid', 'uid', 'flag'])
Run Code Online (Sandbox Code Playgroud)
但是在文档中 kwargs 还没有显示。例如:
gid=[100,101,102,103,104,105]
gid_i_want_load = [100,103,105]
Run Code Online (Sandbox Code Playgroud)
那么,我怎样才能只加载我想计算的 gid 呢?
例如,我的想法是当我使用 doc2vec(s) 来训练模型时,它只是从数据集中构建词汇表。如果我想扩展它,我需要使用 build_vocab()
例如:
sentences = gensim.models.doc2vec.TaggedLineDocument(f_path)
dm_model = gensim.models.doc2vec.Doc2Vec(sentences, dm=1, size=300, window=8, min_count=5, workers=4)
dm_model.build_vocab()
Run Code Online (Sandbox Code Playgroud) 我想让所有工人做同样的任务,像这样:
from dask import distributed
from distributed import Client,LocalCluster
import dask
import socket
def writer(filename,data):
with open(filename,'w') as f:
f.writelines(data)
def get_ip(x):
return socket.gethostname()
#writer('/data/1.txt',a)
client = Client('192.168.123.1:8786')
A=client.submit(get_ip, 0,workers=['w1','w2'], pure=False)
print(client.ncores(),
client.scheduler_info()
# dask.config.get('distributed')
)
A.result()
Run Code Online (Sandbox Code Playgroud)
我有 2 个工人,但只打印 1 个工人的主机名