rit*_*ter 14 linux gpu nvidia-graphics-card
我暂时禁用了 NVIDIA K20m(我节点中的设备 0)上的 ECC 内存保护,现在我无法让它再次恢复工作。在此之前,它在启用 ECC 的情况下正常工作。所以,这就是我所做的:我禁用了 ECC
nvidia-smi -i 0 --ecc-config=0
Run Code Online (Sandbox Code Playgroud)
并重新启动。当它出现时,它显示 100% 的 GPU 利用率并且它不会启动任何内核(它实际上在创建上下文时已经失败)。原因是双位错误。我用
nvidia-smi -i 0 --reset-ecc-errors=0
Run Code Online (Sandbox Code Playgroud)
并重新启动节点。重新启动后,设备利用率为 0%,我可以像往常一样开始工作。几个小时后,设备再次显示出 100% 的 GPU 利用率。这次它没有报告双位错误(甚至没有报告一位错误)。但是,由于我无法运行任何作业,因此我重新启动了节点并且它的 GPU 利用率达到了 100%,因此我无法使用它,但没有报告任何错误。这是怎么回事呀?
GPU 0000:02:00.0
Product Name : Tesla K20m
Display Mode : Disabled
Persistence Mode : Enabled
Driver Model
Current : N/A
Pending : N/A
Serial Number : 0324512044699
GPU UUID : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
VBIOS Version : 80.10.11.00.0B
Inforom Version
Image Version : 2081.0208.01.07
OEM Object : 1.1
ECC Object : 3.0
Power Management Object : N/A
GPU Operation Mode
Current : Compute
Pending : Compute
PCI
Bus : 0x02
Device : 0x00
Domain : 0x0000
Device Id : 0x102810DE
Bus Id : 0000:02:00.0
Sub System Id : 0x101510DE
GPU Link Info
PCIe Generation
Max : 2
Current : 2
Link Width
Max : 16x
Current : 16x
Fan Speed : N/A
Performance State : P0
Clocks Throttle Reasons
Idle : Not Active
User Defined Clocks : Not Active
SW Power Cap : Not Active
HW Slowdown : Not Active
Unknown : Not Active
Memory Usage
Total : 4799 MB
Used : 12 MB
Free : 4787 MB
Compute Mode : Default
Utilization
Gpu : 100 %
Memory : 0 %
Ecc Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Aggregate
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Temperature
Gpu : 30 C
Power Readings
Power Management : Supported
Power Draw : 49.51 W
Power Limit : 225.00 W
Default Power Limit : 225.00 W
Min Power Limit : 150.00 W
Max Power Limit : 225.00 W
Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Applications Clocks
Graphics : 705 MHz
Memory : 2600 MHz
Max Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Compute Processes : None
Run Code Online (Sandbox Code Playgroud)
小智 2
我的 GPU 快要死了吗?
我说它已经死了。它不再报告位错误,因为您关闭了检测它们的功能。(ECC检测到的内容超出了它可以纠正的范围。)但是,卡上的内存(或物理卡本身)可能出现了故障。
在我将其扔进“回收站”之前,还有另外两个嫌疑点:冷却和电源。冷却很容易检查;力量,没那么多。
| 归档时间: |
|
| 查看次数: |
1682 次 |
| 最近记录: |