标签: gpu

TensorFlow GPU 问题“libnvinfer.so.7”和“libnvinfer.so.7”无法加载

我在WSL 2、Ubuntu\xc2\xa022.04 (Jammy Jellyfish) 下安装了 TensorFlow，按照使用 pip 安装 TensorFlow中的说明进行操作。

*我还安装了适用于 Windows 的 Nvidia 驱动程序，并且在我的另一个 WSL\xc2\xa02 中，我使用 GPU 支持的模拟程序。

一切看起来都很好。我在安装过程中没有收到任何错误消息，但是当我在Python\xc2\xa03中导入TensorFlow时，出现以下错误：

2023-02-12 14:49:58.544771: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library \'libnvinfer.so.7\'; dlerror: libnvrtc.so.11.0: cannot open shared object file: No such file or directory\n2023-02-12 14:49:58.544845: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library \'libnvinfer_plugin.so.7\'; dlerror: libnvinfer_plugin.so.7: cannot open shared object file: No such file or directory\n2023-02-12 14:49:58.544874: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Cannot dlopen some TensorRT libraries. …

Run Code Online (Sandbox Code Playgroud)

python gpu tensorflow lib

BAR*_*URT

2023 02-24

2
推荐指数

1
解决办法

5482
查看次数

GPUImage - 如何为GPUImageMedianFilter和GPUImageGaussianBlurFilter指定过滤器大小

嗨,GPUImage社区和Brad,

我想指定GPUImageMedianFilter和GPUImageGaussianBlurFilter的过滤器大小(半径).

是否需要指定GPU表示赞赏？或者可以通过GPUImage包装器完成吗？如果是这样,我该怎么做？

谢谢

gpu ios gpuimage

von*_*dip

lucky-day

1
推荐指数

1
解决办法

1777
查看次数

CUDA中的并行列表减少

我正在通过Cuda Parallel减少白皮书,但不幸的是我的算法似乎反复产生不正确的结果,我似乎无法弄清楚为什么(当然教科书示例必须有效？当然我只是做了一些非常明显错误的事情？) .这是我的核心功能:

我的定义:

 #define BLOCK_SIZE 512

Run Code Online (Sandbox Code Playgroud)

我的内核功能:

 __global__ void total(float * inputList, float * outputList, int len) {
      __shared__ float sdata[2*BLOCK_SIZE];
      unsigned int tid = threadIdx.x;
      unsigned int i = blockIdx.x*(blockDim.x*2) + threadIdx.x;
      sdata[t] = inputList[i]+inputList[i+blockDim.x];
      __syncthreads();
      for (unsigned int s=blockDim.x/2; s>0; s>>=1) {
        if (tid < s) {
          sdata[tid] += sdata[tid + s];
        }
        __syncthreads();
      }
      if (tid == 0) 
        outputList[blockIdx.x] = sdata[0];
}

Run Code Online (Sandbox Code Playgroud)

我的记忆分配:

  outputSize = inputSize / (BLOCK_SIZE<<1);
  cudaMalloc((void**) &deviceInput, inputSize*sizeof(float));
  cudaMalloc((void**) &deviceOutput, outputSize*sizeof(float));
  cudaMemcpy(deviceInput, hostInput, …

Run Code Online (Sandbox Code Playgroud)

c parallel-processing cuda gpu

Abr*_*m P

2015 11-08

1
推荐指数

1
解决办法

746
查看次数

L1缓存的CUDA银行冲突？

在NVIDIA的2.x架构中,每个warp都有64kb的内存,默认情况下分为48kb的共享内存和16kb的L1缓存(服务global和constant内存).

我们都知道访问共享内存的银行冲突 - 内存分为32个大小为32位的存储区,允许所有32个线程同时独立访问.另一方面,全局内存虽然慢得多,但不会遇到银行冲突,因为内存请求在整个warp中合并.

问题: 假设来自全局或常量内存的一些数据缓存在L1缓存中以用于给定的warp.访问此数据是否存在银行冲突,例如共享内存(因为L1缓存和共享内存实际上是相同的硬件),还是以全局/常量内存的方式无冲突？

cuda gpu nvidia opencl bank-conflict

cmo*_*cmo

lucky-day

1
推荐指数

1
解决办法

723
查看次数

矩阵反演GPU MATLAB

我正在寻找一种方法来找到矩阵的伪逆,这样就可以在GPU上完成.SVD/QR很难并行化,并且不支持MATLAB的GPU,但似乎LU虽然可以并行运行,但MATLAB的GPU也不支持.我比较了性能,它似乎比在单核CPU上运行要慢.

我正在寻找可以使用的伪逆(或甚至是方形矩阵的常规逆).根据Matlab,使用mldivide()执行高斯消除,适用于GPU.

我尝试使用A\I但遗憾的是它无法在GPU上高效运行.

有没有人可以指导我使用并行LU或高斯消除的优化代码？

我听说过MAGMA软件包,但是安装和编译似乎需要做很多工作,我真的需要这个简单的东西.

也欢迎使用C++代码.

谢谢,吉尔

c++ matlab gpu linear-algebra matrix-inverse

Gil*_*Gil

2013 07-03

1
推荐指数

1
解决办法

3391
查看次数

CUDA:为什么Thrust在向GPU上传数据时这么慢？

我是GPU世界的新手,刚刚安装了CUDA来编写一些程序.我玩推力库但发现在将数据上传到GPU时速度太慢了.在我可怕的桌面上,主机到设备部分只有大约35MB/s.怎么回事？

环境:Visual Studio 2012,CUDA 5.0,GTX760,Intel-i7,Windows 7 x64

GPU带宽测试: 在此输入图像描述

它应该具有至少11GB/s的主机到设备的传输速度,反之亦然!但事实并非如此!

这是测试程序:

#include <iostream>
#include <ctime>
#include <thrust/device_vector.h>
#include <thrust/host_vector.h>

#define N 32<<22

int main(void)
{
    using namespace std;

    cout<<"GPU bandwidth test via thrust, data size: "<< (sizeof(double)*N) / 1000000000.0 <<" Gbytes"<<endl;
    cout<<"============program start=========="<<endl;

    int now = time(0);
    cout<<"Initializing h_vec...";
    thrust::host_vector<double> h_vec(N,0.0f);
    cout<<"time spent: "<<time(0)-now<<"secs"<<endl;

    now = time(0);
    cout<<"Uploading data to GPU...";
    thrust::device_vector<double> d_vec = h_vec;
    cout<<"time spent: "<<time(0)-now<<"secs"<<endl;

    now = time(0);
    cout<<"Downloading data to h_vec...";
    thrust::copy(d_vec.begin(), d_vec.end(), h_vec.begin());
    cout<<"time spent: "<<time(0)-now<<"secs"<<endl<<endl; …

Run Code Online (Sandbox Code Playgroud)

cuda gpu nvidia thrust

Als*_*ton

2014 01-02

1
推荐指数

1
解决办法

1434
查看次数

如何找出哪个线程在GPU的哪个核心上执行？

我正在Cuda开发一些简单的程序,我想知道哪个线程正在执行GPU的哪个核心.我正在使用Visual Studio 2012,我有一块NVIDIA GeForce 610M显卡.

是否有可能这样做...我已经在谷歌搜索了很多但都是徒劳的.

编辑:

我知道这真的很奇怪,但我的大学项目指南要求我这样做.

cuda gpu nvidia

Viv*_*hto

2015 03-06

1
推荐指数

1
解决办法

1063
查看次数

在GPU上进行流体模拟,将数据提供给客户端

我想建立一个程序,让用户绘制一个机翼轮廓,然后对该轮廓周围的空气进行实时模拟.计算将在GPU上完成.

我为这个程序做了一个设计,你可以在这个丑陋的MS Paint绘图中看到:

计算流程图着色器程序2使用纹理1,它是粒子网格,进行碰撞检测,并将其渲染到纹理2.然后程序1使用更新的网格,计算时间步长,并将其渲染为帧缓冲对象1中的纹理1.偶然程序3将此纹理渲染到屏幕上.

我失去了以一种不完全停止gpu的方式将信息传回客户端的步骤.我唯一想回来的就是机翼上产生的升力.每当粒子与机翼碰撞时,它就会将动量传递给机翼.我需要一种方法来添加所有那些微小的动量,并在多个帧上计算机翼上的平均力.

opengl gpu physics

ren*_*ger

2015 07-10

1
推荐指数

1
解决办法

204
查看次数

计算2D阵列CUDA的平均值

我需要使用CUDA计算2D数组的平均值,但我不知道如何继续.我开始做列减少之后,我将得到结果数组的总和,并在最后一步我将计算平均值.

要做到这一点,我需要立即在设备上完成整个工作？或者我只是一步一步地做,每一步都需要来回和来自CPU和GPU.

cuda gpu gpgpu

ala*_*lae

2017 01-04

1
推荐指数

1
解决办法

1570
查看次数

对于GPU上与数据无关的问题，每个元素启动1个线程是否始终是最佳选择？

我正在编写一个简单的memcpy内核，以测量GTX 760M的内存带宽并将其与cudaMemcpy（）进行比较。看起来像这样：

template<unsigned int THREADS_PER_BLOCK>
__global__ static
void copy(void* src, void* dest, unsigned int size) {
    using vector_type = int2;
    vector_type* src2 = reinterpret_cast<vector_type*>(src);
    vector_type* dest2 = reinterpret_cast<vector_type*>(dest);

    //This copy kernel is only correct when size%sizeof(vector_type)==0
    auto numElements = size / sizeof(vector_type);

    for(auto id = THREADS_PER_BLOCK * blockIdx.x + threadIdx.x; id < numElements ; id += gridDim.x * THREADS_PER_BLOCK){
        dest2[id] = src2[id];
    }
}

Run Code Online (Sandbox Code Playgroud)

我还计算了达到100％占用率所需的块数，如下所示：

THREADS_PER_BLOCK = 256 
Multi-Processors: 4 
Max Threads per Multi Processor: 2048 
NUM_BLOCKS = 4 * …

Run Code Online (Sandbox Code Playgroud)

cuda gpu gpgpu

dar*_*ari

2017 05-07

1
推荐指数

1
解决办法

504
查看次数

标签统计

gpu ×10

cuda ×6

nvidia ×3

gpgpu ×2

bank-conflict ×1

c ×1

c++ ×1

gpuimage ×1

ios ×1

lib ×1

linear-algebra ×1

matlab ×1

matrix-inverse ×1

opencl ×1

opengl ×1

parallel-processing ×1

physics ×1

python ×1

tensorflow ×1

thrust ×1

标签 统计

标签统计