Alon Albalak

OLMo: Accelerating the Science of Language Models
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
Efficient Online Data Mixing For Language Model Pre-Training
RWKV: Reinventing RNNs for the Transformer Era
RWKV (project)