2025年7月14日 星期一

DGX 分散儲存系統筆記

以torch的DDP(distributed data parallel)作為基底考慮:
1. 進行torchrun的時候僅需指定master node IP
2. 掛載資料區時建議以rank0的機器做下載,其他機器都Share同一個資料夾,所以需要透過iSCSI或是NFS進行

目前資料讀取主流主要集中在RDMA協定,讓資料流盡量不要經過CPU,這狀況下:
  • iSCSI 使用 iSER達成
  • NFS使用NFSoRDMA
兩者的差別在於iSCSI是透過storage block進行掛載,所以沒有機會做出cache file system。但是NFS是以遠端檔案系統型式掛載之後做下載,因此有製作Cache file system的空間

建議作法
1. 遠端儲存系統開啟NFS service
2. DGX系統開始 cachefilesd 功能
3. DGX系統開啟NFS並與LDAP嫁接。透過cachefilesd把檔案先cache到本基端,在透過NFSoRDMA直接把資料灌到GPU當中

DGX 分散儲存系統筆記

以torch的DDP(distributed data parallel)作為基底考慮: 1. 進行torchrun的時候僅需指定master node IP 2. 掛載資料區時建議以rank0的機器做下載,其他機器都Share同一個資料夾,所以需要透過iSCSI或是NFS進行 ...