# pku-alignment/safe-rlhf

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/pku-alignment-safe-rlhf).**

1,605 stars · 133 forks · Python · Apache-2.0

## Links

- GitHub: https://github.com/PKU-Alignment/safe-rlhf
- Homepage: https://pku-beaver.github.io
- awesome-repositories: https://awesome-repositories.com/repository/pku-alignment-safe-rlhf.md

## Topics

`ai-safety` `alpaca` `beaver` `datasets` `deepspeed` `gpt` `large-language-models` `llama` `llm` `llms` `reinforcement-learning` `reinforcement-learning-from-human-feedback` `rlhf` `safe-reinforcement-learning` `safe-reinforcement-learning-from-human-feedback` `safe-rlhf` `safety` `transformer` `transformers` `vicuna`

## Description

Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

## Tags

### Part of an Awesome List

- [Jailbreak Defenses](https://awesome-repositories.com/f/awesome-lists/security/jailbreak-defenses.md) — Implements safe reinforcement learning from human feedback.