DoReMi’s Clean Notes

[DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining][1] Questions
[DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining][2] Questions
[DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining][3] Questions