whi*_*dow 6 c++ multithreading cuda gpu
我创建了一个程序,需要使用不同的输入参数多次(很多次!!)调用一个函数。为了加快速度,我像这样进行多线程处理:
std::vector< MTDPDS* > mtdpds_list;
boost::thread_group thread_gp;
for (size_t feat_index = 0; feat_index < feat_parser.getNumberOfFeat(); ++feat_index)
{
Feat* feat = feat_parser.getFeat(static_cast<unsigned int>(feat_index));
// != 0 has been added to avoid a warning message during compilation
bool rotatedFeat = (feat->flag & 0x00000020) != 0;
if (!rotatedFeat)
{
Desc* desc = new Desc(total_sb, ob.size());
MTDPDS* processing_data = new MTDPDS();
processing_data->feat = feat;
processing_data->desc = desc;
processing_data->img_info = image_info;
processing_data->data_op = &data_operations;
processing_data->vecs_bb = vecs_bb;
mtdpds_list.push_back(processing_data);
thread_gp.add_thread(new boost::thread(compute_desc, processing_data));
}
}
// Wait for all threads to complete
thread_gp.join_all();
Run Code Online (Sandbox Code Playgroud)
这段代码是一个更大的代码的一部分,所以不要太担心变量名称等...重要的是我MTDPDS
为每个包含输入和输出参数的线程创建一个对象(),然后生成一个线程调用我的处理函数compute_desc
,并等待所有线程完成后再继续。
然而,我的for
循环有大约 2000 多次迭代,这意味着我启动了大约 2000 多个线程。我在集群上运行我的代码,所以速度相当快,尽管在我看来仍然需要很长时间。
我想将这部分移至 GPU(因为它有更多的内核),尽管我对 GPU 编程很陌生。
谢谢。
1) 最简单的解决方案是使用 #pragma 指令 (OpenACC),它应该已经存在于 GCC7 中。
2)你的数据应该是GPU友好的,了解数组的结构
3)你的compute_desc“内核”应该是GPU兼容的,如果你不知道,就说它应该由编译器进行矢量化。
我希望它能有所帮助,我认为有关 OpenACC tuto的小教程应该是最适合您的解决方案,CUDA/OpenCL 应该稍后提供。我的2分钱