500AI

Search

John Schulman

Proximal Policy Optimization Algorithms
Trust Region Policy Optimization
Training language models to follow instructions with human feedback

All names