标签: graphics-processing-unit

AWS 使用的实际 Tesla M60 型号有哪些？

维基百科说，Tesla M60 有 2x8 GB RAM（不管它意味着什么）和 TDP 225-300 W。

我使用了一个应该有 Tesla M60 的 EC2 实例 (g3s.xlarge)。但是nvidia-smi命令说它有 8GB 内存和最大功率限制 150W：

> sudo nvidia-smi
Tue Mar 12 00:13:10 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M60           On   | 00000000:00:1E.0 Off |                    0 |
| N/A   43C …

Run Code Online (Sandbox Code Playgroud)

amazon-web-services graphics-processing-unit nvidia

han*_*ans

2019 03-12

14
推荐指数

1
解决办法

2728
查看次数

如何运行 GPGPU 内存测试

我们使用了大量的 GPGPU 计算（主要使用 CUDA，但也使用一些 OpenCL）。通常，当用户运行代码时，代码仅在我们的一台主机上出现内存错误。我怀疑其中一张卡有问题。有时它会导致整个系统瘫痪，有时程序会崩溃。

全面测试 GPU 是否可能出现故障的最简单、最快和最彻底的方法是什么？

我知道有些程序是 nvidia 的 CUDA SDK 的一部分：

   deviceQuery
   nvidia-smi

Run Code Online (Sandbox Code Playgroud)

但我需要更彻底的东西。建议？经验？

memory graphics-processing-unit cuda

And*_*ase

2012 07-04

8
推荐指数

1
解决办法

7295
查看次数

Google Kubernetes Engine 节点池不会从 0 个节点自动扩展

我正在尝试在 GKE 上运行机器学习作业，并且需要使用 GPU。

我使用 Tesla K80 创建了一个节点池，如本演练中所述。

我将最小节点大小设置为 0，并希望自动缩放器会根据我的工作自动确定我需要多少个节点：

gcloud container node-pools create [POOL_NAME] \
--accelerator type=nvidia-tesla-k80,count=1 --zone [COMPUTE_ZONE] \
--cluster [CLUSTER_NAME] --num-nodes 3 --min-nodes 0 --max-nodes 5 \
--enable-autoscaling

Run Code Online (Sandbox Code Playgroud)

最初，没有需要 GPU 的作业，因此集群自动缩放器正确地将节点池缩小到 0。

但是，当我使用以下规范创建作业时

resources:
  requests:
    nvidia.com/gpu: "1"
  limits:
    nvidia.com/gpu: "1"

Run Code Online (Sandbox Code Playgroud)

这是完整的作业配置。（请注意，此配置是部分自动生成的。我还删除了一些与问题无关的环境变量）。

在Insufficient nvidia.com/gpu我手动将节点池增加到至少 1 个节点之前，Pod一直处于挂起状态。

这是 GPU 节点池的当前限制，还是我忽略了什么？

graphics-processing-unit kubernetes google-kubernetes-engine nvidia

not*_*ami

2019 04-11

7
推荐指数

1
解决办法

3325
查看次数

运行 Vista 的 HP z800 在 Windows 更新后丢失 NVIDIA 显示设置

不确定这是否是超级用户的问题...我是从管理员的角度接近的。

我的一个用户在运行金融交易应用程序的 HP z800 工作站上。该系统包含两个 nVidia 适配器，为 3 x 2 网格中的六个 24" 显示器供电。操作系统是 Vista Business 64 位 SP1，具有 24GB RAM 和 X5570 CPU。这是一个大系统。

我们对工作站的问题之一是 Windows Vista 操作系统更新（现在通过 WSUS 提供，但以前被禁用）导致 NVIDIA 显示器丢失其位置。代替：

[ 1 ] [ 2 ] [ 3 ]
[ 4 ] [ 5 ] [ 6 ]

Run Code Online (Sandbox Code Playgroud)

我得到：

[ 1 ] [ 4 ] [ 3 ]
[ 5 ] [ 2 ] [ 6 ]

Run Code Online (Sandbox Code Playgroud)

或者：

[ 1 ] [ x ] [ 3 ]
[ 2 …

Run Code Online (Sandbox Code Playgroud)

windows-vista windows-update graphics-processing-unit

eww*_*ite

2011 08-17

5
推荐指数

1
解决办法

226
查看次数

NVIDIA 低成本显卡上的 RemoteFX

我正在研究启用了 RemoteFX 的 Windows Server 2008 SP1，但是我不想购买其中一张 NVIDIA Quadro 1000 美元以上的显卡来完成它（因为只有少数用户会使用虚拟机）。我想使用其中一张 Geforce 卡（我在看 560 Ti 或 570）。

我听说有人修改了 Geforce 卡的 INF 驱动程序文件，以使它们能够与 RemoteFX 一起使用，但我找不到任何关于此的信息。在去买一张卡进行测试之前，我想先看看一些证据。

任何帮助将不胜感激。

remote-desktop graphics-processing-unit

The*_*Woo

2012 05-10

5
推荐指数

1
解决办法

1万
查看次数

GPU 工作的 Hyper-V PCIe 直通（但不是 100%）

我设法能够将 PCIe GPU (AMD RX580) 传递到 Windows Server 2016 标准主机上的 Windows 10 客户机。

问题是，每当使用 GPU 时，都会出现此错误：

驱动程序是通过 Windows 更新安装的

PCIe 直通是使用 Powershell（管理员）完成的：

Set-VM -Name "Parsec" -AutomaticStopAction TurnOff
Dismount-VmHostAssignableDevice -LocationPath "PCIROOT(0)#PCI(0301)#PCI(0000)" -force
Add-VMAssignableDevice -LocationPath "PCIROOT(0)#PCI(0301)#PCI(0000)" -VMName "Parsec"
Set-VM "Parsec" -GuestControlledCacheTypes $True -LowMemoryMappedIoSpace 2000MB -HighMemoryMappedIoSpace 8000MB

这里可能缺少什么？

virtualization windows hyper-v graphics-processing-unit

cyb*_*rks

lucky-day

5
推荐指数

1
解决办法

1946
查看次数