小编Luc*_*llo的帖子

在火炬分布式训练中获取本地世界大小

假设我有 2 台机器,每台机器有 4 个 GPU。假设训练算法的每个实例需要 2 个 GPU。我想运行 4 个进程,每台机器 2 个,每个进程使用 2 个 GPU。

如何让每个进程检索同一台计算机上运行的本地进程的数量?我可以检测world size

torch.distributed.get_world_size()
Run Code Online (Sandbox Code Playgroud)

global rank

torch.distributed.get_rank()
Run Code Online (Sandbox Code Playgroud)

但是,鉴于我不想对参数进行硬编码,有没有办法恢复每个节点上运行 2 个进程?这对于我将 GPU 平均分配给每个进程很有用。

示例:假设我知道一台机器有 4 个 GPU,并且上面有 2 个进程,我将分配 GPU[0, 1]来处理local rank0 级的进程,分配 GPU[2, 3]来处理本地等级 1 的进程。我知道进程总数,但我无法理解它们是否是在同一台机器上,所以我无法决定他们可以使用多少个 GPU。

我需要一个可以调用的函数torch.distributed.get_local_world_size()

gpu distributed-computing pytorch

9
推荐指数
2
解决办法
1万
查看次数

在Safari上使用React的Datepicker

我的应用程序使用Semantic UI React库中的Form.Input 插入日期.它在Chrome和Firefox上都显示了日期选择器,但在Safari上没有.我曾尝试使用react-datepicker库,但它具有不同的样式,很难将其输入与Semantic UI React的Forms中的其他输入对齐.我能做什么?

这是在Safari上不起作用的Form.Input类型的示例.

<Form.Input
    label='From'
    type='date'
    min={this.state.filters.data_inizio}
    value={moment(this.state.filters.data_fine).format('YYYY-MM-DD')}
    onChange={
        (e) => this.setState({
            ...this.state,
            filters: {
                ...this.state.filters,
                data_fine: moment(e.target.value).format('YYYY-MM-DD')
            }
        }, this.filter)
    } />
Run Code Online (Sandbox Code Playgroud)

javascript input datepicker reactjs semantic-ui

7
推荐指数
2
解决办法
2443
查看次数

火花的环境副本有多少?

我有一个PySpark应用程序,必须详细说明5GB的压缩数据(字符串).我正在使用一个12核(24线程)和72Gb RAM的小型服务器.我的PySpark程序只包含2个地图操作,由3个非常大的正则表达式(每个已经编译3gb)和加载pickle.Spark在独立模式下工作,同一台机器上有worker和master.

我的问题是:spark是否为每个执行器核心复制每个变量?因为它使用了所有可用的内存,然后使用了大量的交换空间.或者它可能加载RAM中的所有分区?RDD包含大约1000万个字符串,必须由3个正则表达式进行搜索.RDD计数大约1000个分区.我很难完成这项任务,因为几分钟后内存已满并且火花开始使用交换空间变得非常慢.我注意到没有正则表达式的情况是一样的.

这是我的代码,它会删除twitter推文的所有无用字段,并扫描推文的特定单词的文本和描述:

import json
import re
import twitter_util as twu
import pickle

from pyspark import SparkContext
sc = SparkContext()

prefix = '/home/lucadiliello'

source = prefix + '/data/tweets'
dest = prefix + '/data/complete_tweets'

#Regex's path
companies_names_regex = prefix + '/data/comp_names_regex'
companies_names_dict = prefix + '/data/comp_names_dict'
companies_names_dict_to_legal = prefix + '/data/comp_names_dict_to_legal'

#Loading the regex's
comp_regex = pickle.load(open(companies_names_regex))
comp_dict = pickle.load(open(companies_names_dict))
comp_dict_legal = pickle.load(open(companies_names_dict_to_legal))

#Loading the RDD from textfile 
tx = sc.textFile(source).map(lambda a: json.loads(a))


def get_device(input_text):
    output_text = …
Run Code Online (Sandbox Code Playgroud)

python distributed-computing bigdata apache-spark pyspark

6
推荐指数
1
解决办法
94
查看次数

在文本中找到很多字符串 - Python

我正在寻找解决这个问题的最佳算法:拥有一个小句子的列表(或一个字典,一组),在更大的文本中找到所有出现的句子.列表中的句子(或词典或集合)约为600k,但平均形成3个单词.该文本平均长度为25个字.我刚刚格式化了文本(删除标点符号,全部小写并继续这样).

这是我尝试过的(Python):

to_find_sentences = [
    'bla bla',
    'have a tea',
    'hy i m luca',
    'i love android',
    'i love ios',
    .....
]

text = 'i love android and i think i will have a tea with john'

def find_sentence(to_find_sentences, text):
    text = text.split()
    res = []
    w = len(text)
    for i in range(w):
        for j in range(i+1,w+1):
            tmp = ' '.join(descr[i:j])
            if tmp in to_find_sentences:
                res.add(tmp)
    return res


print find_sentence(to_find_sentence, text)
Run Code Online (Sandbox Code Playgroud)

日期:

['i love android', 'have a tea']
Run Code Online (Sandbox Code Playgroud)

在我的情况下,我使用了一套加速in …

python string

5
推荐指数
1
解决办法
220
查看次数

在QA系统中训练具有不同长度句子的神经网络

我试图实现以下的说明显示对这样的质量保证体系文件.我已经正确导入了一些数据集,并使用word2vec方法转换了向量中的单词.在嵌入一词之后,需要在CNN中插入问题和答案.考虑到每个问题/答案的长度不同,输入Tensor的大小应该是多少?(每个问题/答案都是一组向量).

论文摘录:

在此输入图像描述

q_emb是单词嵌入后的问题,r_w_k是长度为d的单词向量.

哪个是应该使用的M(Q/A的长度)的正确值?你能告诉我一些方法来解决这个问题或者只是给我一些帮助吗?谢谢

neural-network nlp-question-answering word2vec

5
推荐指数
1
解决办法
147
查看次数