小编zen_nna的帖子

CUDA中带宽的含义及其重要性

CUDA编程指南指出了这一点

"带宽是性能最重要的门控因素之一.几乎所有对代码的更改都应该在它们如何影响带宽的背景下进行."

它继续计算理论带宽,其大约为每秒数百千兆字节.我不知道为什么可以读/写全局内存的字节数是对内核优化程度的反映.

如果我有一个内核,其在一开始确实对存储在共享存储器和/或寄存器中的数据密集型计算,只用单一的读取,并在从和全局内存到底写出来,肯定是有效带宽将很小,而内核本身可能非常有效.

任何人都能在这种情况下进一步解释带宽吗？

谢谢

memory optimization cuda bandwidth

5
推荐指数

1
解决办法

2221
查看次数

如何从stl集中获取唯一的值对

我有一组整数,我想迭代所有唯一的整数值对,其中我认为val1,val2和val2,val1是唯一的,我应该只看到那个组合一次.

我在python中编写了这个,我使用列表的索引(簇):

for i in range(len(clusters) - 1):
    for j in range(i+1,len(clusters)):
       #Do something with clusters[i],clusters[j])

Run Code Online (Sandbox Code Playgroud)

但没有索引我不知道如何使用stl set和迭代器实现相同的功能.我试过了:

for (set<int>::iterator itr = myset.begin(); itr != myset.end()-1; ++itr) {
    cout << *itr;
}

Run Code Online (Sandbox Code Playgroud)

但由于迭代器没有 - 运算符,因此失败.

我怎样才能做到这一点,或者我必须使用不同的容器？

c++ iterator stl set

4
推荐指数

1
解决办法

1968
查看次数

在clojure中检查NaN

我有一些算法,由于某种原因吐出NaNs,我想暂时过滤掉这些不好的结果,稍后再去找出问题.因此,我需要检查一个值是否为NaN,我该怎么做？

我以为我可以使用NaN是唯一不等于自身值的技巧,所以我编写了以下函数

(defn NaN?
  "Test if this number is nan"
  [x]
  ; Nan is the only value for which equality is false
  (false? (= x x)))

Run Code Online (Sandbox Code Playgroud)

这有效,如果我问(NaN? Double/NaN Double/NaN).但是,如果值NaN在某些数据结构中(如果是这样),并且在某种意义上已经准备就绪,那么这不起作用.例如

(def test Double/Nan)
(NaN? test)

Run Code Online (Sandbox Code Playgroud)

返回false.

floating-point clojure nan

4
推荐指数

1
解决办法

2326
查看次数

用户使用单个查询和每用户密码盐登录

我决定使用存储在数据库中的每用户盐实现用户登录.盐的前缀为密码,密码用SHA进行哈希处理并存储在数据库中.

在过去我没有使用salt时,我会使用典型的方法来计算查询返回的行数,使用用户输入的用户名和密码.但是,对于每用户salt,您需要先获取salt,然后才能将其与存储的密码哈希进行比较.

因此,为了避免有两个查询(1获取盐和另一个验证输入凭据),我决定根据输入的用户名在单个查询中获取salt和散列密码.就像是

SELECT users.salt, users.password
        FROM users   
        WHERE username = ?'

Run Code Online (Sandbox Code Playgroud)

然后在服务器端代码(PHP)中,我将salt与输入的密码连接起来,哈希并将其与已经从数据库中获取的密码进行比较.

如果不清楚,我想关键的区别在于,在后一种方法中,我在数据库中完成此操作之前检查PHP中的凭据.

在安全性或其他方面,这种方法是否有任何缺点

php mysql passwords login salt

3
推荐指数

1
解决办法

1844
查看次数

在C中,带括号和不带括号的循环是否处理不同？

我在调试器中单步执行一些C/CUDA代码,例如:

for(uint i = threadIdx.x; i < 8379; i+=256) 
    sum += d_PartialHistograms[blockIdx.x + i * HISTOGRAM64_BIN_COUNT];

Run Code Online (Sandbox Code Playgroud)

我完全感到困惑,因为调试器只是一步一步地传递它,尽管输出是正确的.我意识到,当我在我的循环中放置大括号时,如下面的代码段所示,它在调试器中按预期运行.

for(uint i = threadIdx.x; i < 8379; i+=256) {
    sum += d_PartialHistograms[blockIdx.x + i * HISTOGRAM64_BIN_COUNT];
}

Run Code Online (Sandbox Code Playgroud)

因此,在C或调试器中以不同方式处理的循环是无括号的,或者它可能是CUDA特有的.

谢谢

c debugging loops for-loop cuda

3
推荐指数

1
解决办法

672
查看次数

CUDA：如何在多个文件中重用内核（用于单元测试）

如何重用同一个内核，而不会因多次定义符号而出现致命的链接器错误？

在 Visual Studio 中我得到：

"fatal error LNK1169: one or more multiply defined symbols found"

Run Code Online (Sandbox Code Playgroud)

我有三个文件：Interface.h、Kernel.cu和Wrapper.cu. 我当前的结构如下（ala “C++集成”SDK示例）：

//Interface.h 
extern "C" void myCfunction( ... );

//Kernel.cu
__global__ void my_kernel( ... );

//Wrapper.cu
#include "Interface.h"
#include "Kernel.cu"

extern "C" void myCfunction( ... );

void myCfunction( ... ) {
    // Call CUDA kernel in Kernel.cu
    my_kernel<<< ... >>>( ... );
}

Run Code Online (Sandbox Code Playgroud)

这一切都很好。

但是，如果我在另一个包含Kernel.cu并使用这些内核的文件中添加另一个 C 函数，则会出现上述错误。例如

//NewWrapper.cu
#include "Kernel.cu"

extern "C" void myNewCfunction( ... …

Run Code Online (Sandbox Code Playgroud)

2
推荐指数

1
解决办法

2600
查看次数

无法将元素插入到嵌套的stl集合中

我有一组嵌套的int但我不能将元素插入到嵌套集中.

std::set<std::set<int> > centre_as_set = bitset_to_set(centre->second->bit_partitions);
std::set<std::set<int> >::iterator set_itr;
for ( set_itr = centre_as_set.begin(); set_itr != centre_as_set.end(); ++set_itr ) {
    set_itr->insert(4);
    std::set<int>::iterator node_itr;
    for ( node_itr = set_itr->begin(); node_itr != set_itr->end(); ++node_itr ) {
            std::cout << *node_itr;
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

错误是

Partition_standalone.cpp:612:错误:将'const std :: set,std :: allocator>'作为'this'参数传递给'std :: pair,_Compare,typename _Alloc :: rebind <_Key> :: other> :: const_iterator,bool> std :: set <_Key,_Compare,_Alloc> :: insert(const _Key&)[with _Key = int,_Compare = std :: less,_Alloc = std :: allocator]'丢弃限定符

我无法解释该模板错误,任何帮助表示赞赏.

c++ iterator stl set

2
推荐指数

1
解决办法

1316
查看次数

更好地设计使用具有不同参数的函数指针

我有一个优化算法,可以找到图形的最佳分区.

分区的质量有很多度量(被优化的变量),所以我认为使用函数指针来处理这些质量函数是个好主意,并将其传递给我的优化算法函数.

这工作正常,但问题是不同的质量函数采取一些不同的论点.

例如,一个质量函数是find_linearised_stability,它需要一个markov_time参数:

float find_linearised_stability(cliques::Graph<T> &my_graph, cliques::Partition &my_partition,
                               std::vector<float> &markov_times, std::vector<float> &stabilities)

Run Code Online (Sandbox Code Playgroud)

并用于优化功能:

cliques::find_optimal_partition_louvain(my_new_graph, markov_times, &cliques::find_linearised_stability);

Run Code Online (Sandbox Code Playgroud)

但是另一个质量函数find_modularity不需要markov_time参数.当然,我可以把它作为一个参数包括在内,而不是在函数中使用它,但这似乎是不好的做法,并且一旦我开始添加许多不同的质量函数就会变得笨拙.

对于这种情况,什么是更好的设计？

c++ function-pointers

2
推荐指数

1
解决办法

427
查看次数

为什么clang混淆了Boost的STL？

我正在尝试用Clang编译一个C++库(用g ++编译好).

但是由于某些原因,我在使用stl容器时到处都出现错误.错误消息似乎暗示它认为我正在尝试使用增强集,我认为不是.

我不相信任何地方我有点别名boost为std,我从来没有实际使用的using关键字.

/Users/zennatavares/repos/cliques/cliques/../cliques/structures/disjointset.h:140:8: error: too few template arguments for class template 'set'
                std::set<int> visited_parents_;
                     ^
/usr/local/include/boost/detail/container_fwd.hpp:90:64: note: template is declared here
    template <class Key, class Compare, class Allocator> class set;

Run Code Online (Sandbox Code Playgroud)

c++ boost stl header clang

2
推荐指数

1
解决办法

1360
查看次数

具有不同属性的项的数据库结构

我正在开发一个服装Web应用程序,并希望有关如何在我的mysql数据库中构建数据的建议.

每件产品(服装项目)都会以多种方式进行摄影,让我们称之为"模式".例如,衬衫将被拍照扣扣或解扣,和/或塞入/不藏入.一条裤子将具有不同的可能属性集.我想存储有关拍摄这些物品的方式的信息,以便我以后可以使用该信息以特定方式显示衣物.

因此,一种方法只是将所有可能的属性存储在单个表中,例如:

productId(FK,PK)modeId(PK)isLoose isTuckedIn Size HasSmthUnderneath

其中属性可以是另一个表中定义的值或代码,如果不适用于特定模式,则为NULL.

然后给出一个特定的productId和modeId,我想我可以过滤掉不适用的属性的NULL值,只使用相关的属性.

但是,我不确定这是否是存储这种值的理想方式,因为我会有很多NULL值,例如在一条仅以一种方式拍摄的裤子中.我听说过EAV模型,这个合适吗？

值得注意的是,属性的数量将由我而不是用户决定,并且不应该有很大变化; 并且我的最终目标是提取特定模式的属性,以便我可以在我的应用程序中使用该数据.

对不起,如果有什么不清楚!

sql database model

1
推荐指数

1
解决办法

2213
查看次数

将线程编号映射到数组中的(非顺序)位置

我想映射一个thread_id.这在C/CUDA中,但它更像是我试图解决的代数问题.

所以我想要实现的映射是这样的:

线程0-15:读取值数组[0]
线程16-31:读取值[3]
线程32-47:读取值[0]
线程48-63:读取值[3]
线程64-79:读取值数组[6]
线程80-95:读取值数组[9]
线程96-111:读取值数组[6]
线程112-127:读取值数组[9]

等等..

注意这是映射的简化,实际上有超过128个线程,但序列如图所示,线程总是映射到三的倍数.

我可以使用什么公式,每个线程可以运行以找出它应该看到的数组位置？

我想在下面的示例中使用某种公式,而不是显式映射或任何if语句.

为了说明我如何解决这个需要不同映射的不同情况,即:

线程0-31:读取值数组[0]
线程32-63:读取值[3]

我用过代码

rintf(float(tid)/96.0)*3

Run Code Online (Sandbox Code Playgroud)

c++ cuda formula

1
推荐指数

1
解决办法

160
查看次数

标签统计

c++ ×5

cuda ×4

stl ×3

set ×2

c ×1

floating-point ×1

function-pointers ×1

nan ×1

optimization ×1

php ×1

salt ×1

sql ×1

«
1
2
3
4
5
»