這問題比較容易出現在 ubuntu 進行 do-release-upgrade 以後。
具體症狀就是升級完畢後使用apt-update 結果所有的repo都回應IGN。原因就是DNS設定全部都跑掉了。
結果回去編輯 /etc/resolv.conf 系統也回應說這檔案為連結檔(linked file)因此不給編輯。
這時候非常簡單,直接把目前這個resolv.conf 刪除掉,重新建立就可以編輯了。把新建的檔案內容修改為:
nameserver 8.8.8.8
就能正常運作。
以torch的DDP(distributed data parallel)作為基底考慮: 1. 進行torchrun的時候僅需指定master node IP 2. 掛載資料區時建議以rank0的機器做下載,其他機器都Share同一個資料夾,所以需要透過iSCSI或是NFS進行 ...
沒有留言:
張貼留言