问题描述
程序无缘无故出现
nan
导致程序奔溃
1 | 2021-04-19 12:50:59.493929: E tensorflow/core/kernels/gpu_utils.cc:93] Redzone mismatch in RHS redzone of buffer 0x7fe00b742600 at offset 4984856; expected ffffffffffffffff but was faffc4ffffffffff. |
问题原因
显卡坏了
显卡检测
因为我没有 root 权限, 所有只能自己写一个小程序验证我的显卡有问题的猜想
1 | import os |
吐槽
tmd傻逼项目服务器, rnm, 内存只有32G, 实际可用才16G, 磁盘空间小, tm只剩300多G了, 服务器还不稳定, 知道显卡坏了还不修
还有为什么我tm总是遇到硬件bug, 以前是CPU, 这次是显卡