1. 進行torchrun的時候僅需指定master node IP
2. 掛載資料區時建議以rank0的機器做下載,其他機器都Share同一個資料夾,所以需要透過iSCSI或是NFS進行
目前資料讀取主流主要集中在RDMA協定,讓資料流盡量不要經過CPU,這狀況下:
- iSCSI 使用 iSER達成
- NFS使用NFSoRDMA
兩者的差別在於iSCSI是透過storage block進行掛載,所以沒有機會做出cache file system。但是NFS是以遠端檔案系統型式掛載之後做下載,因此有製作Cache file system的空間
建議作法
1. 遠端儲存系統開啟NFS service
2. DGX系統開始 cachefilesd 功能
3. DGX系統開啟NFS並與LDAP嫁接。透過cachefilesd把檔案先cache到本基端,在透過NFSoRDMA直接把資料灌到GPU當中
#######
運算系統
- GANG調度系統: 大多跟POD一起使用,主要紀錄節點之間的關係。因為高速運算,運算節點之間要夠近。這些可在GANG當中調整。[https://blog.csdn.net/weixin_49199313/article/details/149069022]
- SLURM : 節點分配系統。不過看起來也會繼承節點之間如果過於分散,任務也只會依照空閒節點配置。感覺沒到非常理想。但是pytorch可以直接binidng倒是可以考量的工具[ https://docs.hpc.sjtu.edu.cn/job/slurm.html ]