通常出現cuda initial error就只要把driver更新就可以了。但是DGX 系列在後續為了加強節點與節點之間的傳輸速度,出廠就直接安裝了NV-Switch。
之前不知道發生甚麼問題,一直出現cuIntial error,查了很久才發現是因為NV-switch功能被disable。因此只要下達以下指令就可以了
sudo systemctl start nvidia-fabricmanager #把nv-switch打開
sudo systemctl enable nvidia-fabricmanager #開機階段就預設打開
Ref:
https://docs.nvidia.com/datacenter/tesla/pdf/fabric-manager-user-guide.pdf
沒有留言:
張貼留言