2024年6月5日 星期三

LLM emergent

Basic Emergent:  1B   : https://arxiv.org/pdf/2206.04615

Few shot Emergent (in-context learning) : 100B : https://arxiv.org/pdf/2206.07682

沒有留言:

張貼留言

DGX 分散儲存系統筆記

以torch的DDP(distributed data parallel)作為基底考慮: 1. 進行torchrun的時候僅需指定master node IP 2. 掛載資料區時建議以rank0的機器做下載,其他機器都Share同一個資料夾,所以需要透過iSCSI或是NFS進行 ...