小编Luc*_*llo的帖子

在火炬分布式训练中获取本地世界大小

假设我有 2 台机器，每台机器有 4 个 GPU。假设训练算法的每个实例需要 2 个 GPU。我想运行 4 个进程，每台机器 2 个，每个进程使用 2 个 GPU。

如何让每个进程检索同一台计算机上运行的本地进程的数量？我可以检测world size到

torch.distributed.get_world_size()

Run Code Online (Sandbox Code Playgroud)

和global rank与

torch.distributed.get_rank()

Run Code Online (Sandbox Code Playgroud)

但是，鉴于我不想对参数进行硬编码，有没有办法恢复每个节点上运行 2 个进程？这对于我将 GPU 平均分配给每个进程很有用。

示例：假设我知道一台机器有 4 个 GPU，并且上面有 2 个进程，我将分配 GPU[0, 1]来处理local rank0 级的进程，分配 GPU[2, 3]来处理本地等级 1 的进程。我知道进程总数，但我无法理解它们是否是在同一台机器上，所以我无法决定他们可以使用多少个 GPU。

我需要一个可以调用的函数torch.distributed.get_local_world_size()

gpu distributed-computing pytorch

Luc*_*llo

lucky-day

9
推荐指数

2
解决办法

1万
查看次数

在Safari上使用React的Datepicker

我的应用程序使用Semantic UI React库中的Form.Input 插入日期.它在Chrome和Firefox上都显示了日期选择器,但在Safari上没有.我曾尝试使用react-datepicker库,但它具有不同的样式,很难将其输入与Semantic UI React的Forms中的其他输入对齐.我能做什么？

这是在Safari上不起作用的Form.Input类型的示例.

<Form.Input
    label='From'
    type='date'
    min={this.state.filters.data_inizio}
    value={moment(this.state.filters.data_fine).format('YYYY-MM-DD')}
    onChange={
        (e) => this.setState({
            ...this.state,
            filters: {
                ...this.state.filters,
                data_fine: moment(e.target.value).format('YYYY-MM-DD')
            }
        }, this.filter)
    } />

Run Code Online (Sandbox Code Playgroud)

javascript input datepicker reactjs semantic-ui

Luc*_*llo

lucky-day

7
推荐指数

2
解决办法

2443
查看次数

火花的环境副本有多少？

我有一个PySpark应用程序,必须详细说明5GB的压缩数据(字符串).我正在使用一个12核(24线程)和72Gb RAM的小型服务器.我的PySpark程序只包含2个地图操作,由3个非常大的正则表达式(每个已经编译3gb)和加载pickle.Spark在独立模式下工作,同一台机器上有worker和master.

我的问题是:spark是否为每个执行器核心复制每个变量？因为它使用了所有可用的内存,然后使用了大量的交换空间.或者它可能加载RAM中的所有分区？RDD包含大约1000万个字符串,必须由3个正则表达式进行搜索.RDD计数大约1000个分区.我很难完成这项任务,因为几分钟后内存已满并且火花开始使用交换空间变得非常慢.~~我注意到没有正则表达式的情况是一样的.~~

这是我的代码,它会删除twitter推文的所有无用字段,并扫描推文的特定单词的文本和描述:

import json
import re
import twitter_util as twu
import pickle

from pyspark import SparkContext
sc = SparkContext()

prefix = '/home/lucadiliello'

source = prefix + '/data/tweets'
dest = prefix + '/data/complete_tweets'

#Regex's path
companies_names_regex = prefix + '/data/comp_names_regex'
companies_names_dict = prefix + '/data/comp_names_dict'
companies_names_dict_to_legal = prefix + '/data/comp_names_dict_to_legal'

#Loading the regex's
comp_regex = pickle.load(open(companies_names_regex))
comp_dict = pickle.load(open(companies_names_dict))
comp_dict_legal = pickle.load(open(companies_names_dict_to_legal))

#Loading the RDD from textfile 
tx = sc.textFile(source).map(lambda a: json.loads(a))


def get_device(input_text):
    output_text = …

Run Code Online (Sandbox Code Playgroud)

python distributed-computing bigdata apache-spark pyspark

Luc*_*llo

2017 09-23

6
推荐指数

1
解决办法

94
查看次数

在文本中找到很多字符串 - Python

我正在寻找解决这个问题的最佳算法:拥有一个小句子的列表(或一个字典,一组),在更大的文本中找到所有出现的句子.列表中的句子(或词典或集合)约为600k,但平均形成3个单词.该文本平均长度为25个字.我刚刚格式化了文本(删除标点符号,全部小写并继续这样).

这是我尝试过的(Python):

to_find_sentences = [
    'bla bla',
    'have a tea',
    'hy i m luca',
    'i love android',
    'i love ios',
    .....
]

text = 'i love android and i think i will have a tea with john'

def find_sentence(to_find_sentences, text):
    text = text.split()
    res = []
    w = len(text)
    for i in range(w):
        for j in range(i+1,w+1):
            tmp = ' '.join(descr[i:j])
            if tmp in to_find_sentences:
                res.add(tmp)
    return res


print find_sentence(to_find_sentence, text)

Run Code Online (Sandbox Code Playgroud)

日期: