2025年7月14日 星期一

DGX 分散運算儲存系統筆記

以torch的DDP(distributed data parallel)作為基底考慮:
1. 進行torchrun的時候僅需指定master node IP
2. 掛載資料區時建議以rank0的機器做下載,其他機器都Share同一個資料夾,所以需要透過iSCSI或是NFS進行

目前資料讀取主流主要集中在RDMA協定,讓資料流盡量不要經過CPU,這狀況下:
  • iSCSI 使用 iSER達成
  • NFS使用NFSoRDMA
兩者的差別在於iSCSI是透過storage block進行掛載,所以沒有機會做出cache file system。但是NFS是以遠端檔案系統型式掛載之後做下載,因此有製作Cache file system的空間

建議作法
1. 遠端儲存系統開啟NFS service
2. DGX系統開始 cachefilesd 功能
3. DGX系統開啟NFS並與LDAP嫁接。透過cachefilesd把檔案先cache到本基端,在透過NFSoRDMA直接把資料灌到GPU當中

#######

運算系統

  • GANG調度系統: 大多跟POD一起使用,主要紀錄節點之間的關係。因為高速運算,運算節點之間要夠近。這些可在GANG當中調整。[https://blog.csdn.net/weixin_49199313/article/details/149069022]
  • SLURM : 節點分配系統。不過看起來也會繼承節點之間如果過於分散,任務也只會依照空閒節點配置。感覺沒到非常理想。但是pytorch可以直接binidng倒是可以考量的工具[ https://docs.hpc.sjtu.edu.cn/job/slurm.html ]

沒有留言:

張貼留言

DGX 分散運算儲存系統筆記

以torch的DDP(distributed data parallel)作為基底考慮: 1. 進行torchrun的時候僅需指定master node IP 2. 掛載資料區時建議以rank0的機器做下載,其他機器都Share同一個資料夾,所以需要透過iSCSI或是NFS進行 ...