2024年12月13日 星期五

DGX 燒機測試

 使用nvsm就能把cpu跟gpu、記憶體吃滿


sudo nvsm stress-test 172800 # 持續172800秒的壓力測試,即48小時。預設會把cpu、gpu、記憶體全吃滿

sudo nvsm stress-test gpu 172800 #持續48小時壓力測試,且只有測試gpu


沒有留言:

張貼留言

DGX 分散儲存系統筆記

以torch的DDP(distributed data parallel)作為基底考慮: 1. 進行torchrun的時候僅需指定master node IP 2. 掛載資料區時建議以rank0的機器做下載,其他機器都Share同一個資料夾,所以需要透過iSCSI或是NFS進行 ...