2025年3月10日 星期一

DGX H200 在cuda container中出現cuInit error

 通常出現cuda initial error就只要把driver更新就可以了。但是DGX 系列在後續為了加強節點與節點之間的傳輸速度,出廠就直接安裝了NV-Switch。

之前不知道發生甚麼問題,一直出現cuIntial error,查了很久才發現是因為NV-switch功能被disable。因此只要下達以下指令就可以了

sudo systemctl start nvidia-fabricmanager  #把nv-switch打開

sudo systemctl enable nvidia-fabricmanager  #開機階段就預設打開


Ref:

https://docs.nvidia.com/datacenter/tesla/pdf/fabric-manager-user-guide.pdf

沒有留言:

張貼留言

iscsi 連線問題筆記

如果要進行umount但是出現target buzy sudo fuser -km 掛載點 sudo umount 掛載點 iSCSI重啟 sudo open-iscsi restart  掛載lun iscsiadm -m discovery -t sendtargets -p...