Jeffrey Ladish

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B
BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B
Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits
Constitutional AI: Harmlessness from AI Feedback
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback