使用nvsm就能把cpu跟gpu、記憶體吃滿
sudo nvsm stress-test 172800 # 持續172800秒的壓力測試,即48小時。預設會把cpu、gpu、記憶體全吃滿
sudo nvsm stress-test gpu 172800 #持續48小時壓力測試,且只有測試gpu
以torch的DDP(distributed data parallel)作為基底考慮: 1. 進行torchrun的時候僅需指定master node IP 2. 掛載資料區時建議以rank0的機器做下載,其他機器都Share同一個資料夾,所以需要透過iSCSI或是NFS進行 ...
沒有留言:
張貼留言