Basic Emergent: 1B : https://arxiv.org/pdf/2206.04615
Few shot Emergent (in-context learning) : 100B : https://arxiv.org/pdf/2206.07682
以torch的DDP(distributed data parallel)作為基底考慮: 1. 進行torchrun的時候僅需指定master node IP 2. 掛載資料區時建議以rank0的機器做下載,其他機器都Share同一個資料夾,所以需要透過iSCSI或是NFS進行 ...
沒有留言:
張貼留言