标签: nvidia

cudnn 错误:: CUDNN_STATUS_SUCCESS（1 与 0） CUDNN_STATUS_NOT_INITIALIZED

我正在尝试安装一个开源软件“openpose”，为此我需要安装 cuda、cudnn 和 nvidia 驱动程序。nvidia-smi 的输出是：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.59       Driver Version: 440.59       CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce 940MX       Off  | 00000000:01:00.0 Off |                  N/A |
| N/A   47C    P8    N/A /  N/A |    107MiB /  2004MiB |      7%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name …

Run Code Online (Sandbox Code Playgroud)

nvidia openpose

Sun*_*nny

2021 02-11

2
推荐指数

1
解决办法

3925
查看次数

“nvidia-smi” 与“nvidia-smi” 之间的内存使用指标有什么区别

我得到nvidia-smi的Memory-Usage是这样的

$nvidia-smi -i 0,1
Wed Mar  4 16:20:07 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.113      Driver Version: 418.113      CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce RTX 208...  Off  | 00000000:18:00.0 Off |                  N/A |
| 27%   37C    P8     1W / 250W |  10789MiB / 10989MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce RTX …

Run Code Online (Sandbox Code Playgroud)

nvidia tensorflow

wus*_*eng

lucky-day

2
推荐指数

1
解决办法

4611
查看次数

需要帮助将 cuDF Dataframe 转换为 cupy ndarray

我想将 cuDF 数据帧转换为 cupy ndarray。我正在使用下面的代码：

import time
import numpy as np
import cupy as cp
import cudf
from numba import cuda
df = cudf.read_csv('titanic.csv')
arr_cupy = cp.fromDlpack(df.to_dlpack())

Run Code Online (Sandbox Code Playgroud)

输出：

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-176-0d6ff9785189> in <module>
----> 1 arr_cupy = cp.fromDlpack(df.to_dlpack())

~/.conda/envs/rapids_013/lib/python3.7/site-packages/cudf/core/dataframe.py in to_dlpack(self)
   3821         import cudf.io.dlpack as dlpack
   3822 
-> 3823         return dlpack.to_dlpack(self)
   3824 
   3825     @ioutils.doc_to_csv()

~/.conda/envs/rapids_013/lib/python3.7/site-packages/cudf/io/dlpack.py in to_dlpack(cudf_obj)
     72         )
     73 
---> 74     return libdlpack.to_dlpack(gdf_cols)

cudf/_libxx/dlpack.pyx in cudf._libxx.dlpack.to_dlpack()

ValueError: Cannot create a DLPack tensor with null …

Run Code Online (Sandbox Code Playgroud)

python nvidia rapids cupy cudf

Md *_*ari

2020 05-07

2
推荐指数

1
解决办法

2723
查看次数

CUDA 无法使用所有可用的常量内存

我有一个使用协作组来执行某些操作的代码。因此我用以下方法编译我的代码：

/usr/local/cuda/bin/nvcc -arch=sm_61 -gencode=arch=compute_61,code=sm_61, --device-c -g -O2 foo.cu

Run Code Online (Sandbox Code Playgroud)

然后我尝试调用设备链接器：

/usr/local/cuda/bin/nvcc -arch=sm_61 -gencode=arch=compute_61,code=sm_61, -g -dlink foo.o

Run Code Online (Sandbox Code Playgroud)

然后它会产生错误：

ptxas 错误：文件使用太多全局常量数据（0x10100 字节，最大 0x10000）

该问题是由我分配常量内存的方式引起的：

__constant__ float d_cnst_centers[CONST_MEM / sizeof(float)];

Run Code Online (Sandbox Code Playgroud)

其中 CONST_MEM = 65536 字节，这是我从 SM_61 的设备查询中获得的。但是，如果我将常量内存减少到 64536 之类的值，问题就消失了。这几乎就像在编译期间为了某些目的而“保留”常量内存一样。我搜索了 CUDA 文档，但没有找到满意的答案。使用可用的最大常量内存是否安全？为什么会出现这个问题呢？

编辑：这是在 SM_61 上触发错误的代码片段：

#include <algorithm>
#include <vector>
#include <type_traits>
#include <cuda_runtime.h>
#include <cfloat>
#include <iostream>

#include <cooperative_groups.h>

using namespace cooperative_groups;


struct foo_params {
    float * points;
    float * centers;
    int * centersDist;
    int * centersIndex;
    int numPoints;
};

__constant__ float d_cnst_centers[65536 / sizeof(float)]; …

Run Code Online (Sandbox Code Playgroud)

cuda gpu nvidia

edh*_*dhu

2020 07-09

2
推荐指数

1
解决办法

887
查看次数

cuda 11 内核无法运行

这是demo.cu从 GPU 设备打印的目标：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <stdio.h>

__global__ void hello_cuda() {
        printf("hello from GPU\n");
}

int main() {
        printf("hello from CPU\n");
        hello_cuda <<<1, 1>>> ();
        cudaDeviceSynchronize();

        cudaDeviceReset();
        printf("bye bye from CPU\n");
        return 0;
}

Run Code Online (Sandbox Code Playgroud)

它编译并运行：

$ nvcc demo.cu
$ ./a.out

Run Code Online (Sandbox Code Playgroud)

这就是我得到的输出：

hello from CPU
bye bye from CPU

Run Code Online (Sandbox Code Playgroud)

问：为什么GPU没有打印结果？

看起来我确实错误配置了 cuda 工具包或其他东西，但是我可以从 cuda-samples 编译并运行各种程序。例如，matrixMul或deviceQuery

printf cuda nvidia

gov*_*sky

2020 09-01

2
推荐指数

1
解决办法

2233
查看次数

为什么在 Pytorch 中打印 GPU 张量的值需要这么长时间？

我编写了这个 pytorch 程序来在 GPU 上计算 5000*5000 矩阵乘法，迭代 100 次。

import torch
import numpy as np
import time

N = 5000
x1 = np.random.rand(N, N)

######## a 5000*5000 matrix multiplication on GPU, 100 iterations #######
x2 = torch.tensor(x1, dtype=torch.float32).to("cuda:0")

start_time = time.time()
for n in range(100):
    G2 = x2.t() @ x2
print(G2.size())
print("It takes", time.time() - start_time, "seconds to compute")
print("G2.device:", G2.device)

start_time2 = time.time()
# G4 = torch.zeros((5,5),device="cuda:0")
G4 = G2[:5, :5]
print("G4.device:", G4.device)
print("G4======", G4)
# G5=G4.cpu()
# print("G5.device:",G5.device) …

Run Code Online (Sandbox Code Playgroud)

nvidia pytorch

mik*_*lon

2021 03-19

2
推荐指数

1
解决办法

689
查看次数

如何在没有 GPU 的 macOS catalina 10.15.7 上安装 nvcc？

运行时：

which nvcc

它说：

nvcc not found

而且我没有找到在 macOS catalina 10.15.7 上安装 nvcc 的明确指南。

因为我正在尝试运行https://github.com/jugg1024/Text-Detection-with-FRCN.git。但在摄像机上：

make -j16 && make pycaffe:

从这里：

它给出了这个错误：

这就是为什么我确实需要nvcc安装。

您能提供的任何帮助将不胜感激！

macos cuda nvidia nvcc cudnn

mar*_*oob

2021 04-07

2
推荐指数

1
解决办法

5325
查看次数

Nvidia CUDA 错误：没有可在设备上执行的内核映像

我有一台 NVidia GeForce GTX 770，希望将其 CUDA 功能用于我正在进行的项目。我的机器运行的是 Windows 10 64 位。

我已遵循提供的 CUDA Toolkit 安装指南：https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/。

安装驱动程序后，我打开示例解决方案（使用 Visual Studio 2019）并构建deviceQuery和bandwidthTest示例。这是输出：

设备查询：

C:\ProgramData\NVIDIA Corporation\CUDA Samples\v11.3\bin\win64\Debug\deviceQuery.exe Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "NVIDIA GeForce GTX 770"
  CUDA Driver Version / Runtime Version          11.3 / 11.3
  CUDA Capability Major/Minor version number:    3.0
  Total amount of global memory:                 2048 MBytes (2147483648 bytes)
  (008) Multiprocessors, (192) CUDA Cores/MP:    1536 …

Run Code Online (Sandbox Code Playgroud)

cuda gpu driver nvidia

Roy*_*ron

lucky-day

2
推荐指数

2
解决办法

1万
查看次数

nppi 调整大小功能，3 个通道得到奇怪的输出

使用 nppi cuda 库中的 nppi 几何变换函数时，出现奇怪的错误。代码在这里：

#include <nppi.h>
#include <nppi_geometry_transforms.h>

#include <iostream>
#include <opencv2/core.hpp>
#include <opencv2/highgui.hpp>
#include <opencv2/imgcodecs.hpp>
#include <vector>

void write(const cv::Mat &mat1, const std::string &path) {
    auto mat2 = cv::Mat(mat1.rows, mat1.cols, CV_8UC4);
    for (int i = 0; i < mat1.rows; i++) {
        for (int j = 0; j < mat1.cols; j++) {
            auto &bgra = mat2.at<cv::Vec4b>(i, j);
            auto &rgb = mat1.at<cv::Vec3b>(i, j);
            bgra[0] = rgb[2];
            bgra[1] = rgb[1];
            bgra[2] = rgb[0];
            bgra[3] = UCHAR_MAX;
        }
    }
    std::vector<int> compression_params; …

Run Code Online (Sandbox Code Playgroud)

c++ opencv cuda nvidia

Bri*_*Yeh

2022 06-12

2
推荐指数

1
解决办法

306
查看次数