markliou's murmur: DGX 分散運算儲存系統筆記

2025年7月14日星期一

以torch的DDP(distributed data parallel)作為基底考慮:

1. 進行torchrun的時候僅需指定master node IP

2. 掛載資料區時建議以rank0的機器做下載，其他機器都Share同一個資料夾，所以需要透過iSCSI或是NFS進行

目前資料讀取主流主要集中在RDMA協定，讓資料流盡量不要經過CPU，這狀況下:

兩者的差別在於iSCSI是透過storage block進行掛載，所以沒有機會做出cache file system。但是NFS是以遠端檔案系統型式掛載之後做下載，因此有製作Cache file system的空間

建議作法

1. 遠端儲存系統開啟NFS service

2. DGX系統開始 cachefilesd 功能

3. DGX系統開啟NFS並與LDAP嫁接。透過cachefilesd把檔案先cache到本基端，在透過NFSoRDMA直接把資料灌到GPU當中

#######

運算系統

GANG調度系統: 大多跟POD一起使用，主要紀錄節點之間的關係。因為高速運算，運算節點之間要夠近。這些可在GANG當中調整。[https://blog.csdn.net/weixin_49199313/article/details/149069022]
SLURM : 節點分配系統。不過看起來也會繼承節點之間如果過於分散，任務也只會依照空閒節點配置。感覺沒到非常理想。但是pytorch可以直接binidng倒是可以考量的工具[ https://docs.hpc.sjtu.edu.cn/job/slurm.html ]

markliou's murmur