# dennybritz/reinforcement-learning

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/dennybritz-reinforcement-learning).**

21,893 stars · 6,165 forks · Jupyter Notebook · mit

## Links

- GitHub: https://github.com/dennybritz/reinforcement-learning
- Homepage: http://www.wildml.com/2016/10/learning-reinforcement-learning/
- awesome-repositories: https://awesome-repositories.com/repository/dennybritz-reinforcement-learning.md

## Description

This repository provides a comprehensive library of reinforcement learning algorithms designed for training autonomous agents. It serves as a research-oriented collection of implementations that cover fundamental decision-making strategies, including dynamic programming, temporal difference learning, and policy gradient methods.

The project distinguishes itself by offering specialized frameworks for deep reinforcement learning and structured decision modeling. It includes implementations for deep Q-learning that utilize neural networks, experience replay, and prioritized sampling to approximate action values in complex environments. Additionally, it provides a suite of solvers for Markov decision processes that compute optimal policies and value functions through iterative evaluation and improvement techniques.

The library supports a broad range of learning architectures, enabling the optimization of policies in both discrete and continuous action spaces. It facilitates the study of agent behavior through various estimation methods, such as Monte Carlo sampling and actor-critic architectures, which balance exploration and exploitation during the training process.

The repository is structured as a collection of Jupyter Notebooks, providing documented examples and implementations for testing and researching reinforcement learning algorithms.

## Tags

### Artificial Intelligence & ML

- [Deep Q-Learning Implementations](https://awesome-repositories.com/f/artificial-intelligence-ml/deep-q-learning-implementations.md) — Trains agents to approximate action values using neural networks, experience replay, and prioritized sampling.
- [Reinforcement Learning Algorithms](https://awesome-repositories.com/f/artificial-intelligence-ml/reinforcement-learning-algorithms.md) — Provides a comprehensive library of reinforcement learning algorithms for training autonomous agents. ([source](https://cdn.jsdelivr.net/gh/dennybritz/reinforcement-learning@master/README.md))
- [Deep Q-Learning Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/deep-q-learning-frameworks.md) — Provides a set of tools for approximating action values using neural networks and experience replay.
- [Markov Decision Process Solvers](https://awesome-repositories.com/f/artificial-intelligence-ml/markov-decision-process-solvers.md) — Computes optimal policies and value functions for Markov decision processes using iterative evaluation techniques. ([source](http://www.wildml.com/2016/10/learning-reinforcement-learning/))
- [Reinforcement Learning](https://awesome-repositories.com/f/artificial-intelligence-ml/reinforcement-learning.md) — Provides a research-oriented collection of reinforcement learning algorithms for studying agent behavior.
- [Actor-Critic Architectures](https://awesome-repositories.com/f/artificial-intelligence-ml/actor-critic-architectures.md) — Implements actor-critic architectures to balance exploration and exploitation during agent training.
- [Policy Gradient Implementations](https://awesome-repositories.com/f/artificial-intelligence-ml/policy-gradient-implementations.md) — Provides architectures for optimizing decision-making policies directly in discrete and continuous action spaces.
- [Policy Gradient Optimizers](https://awesome-repositories.com/f/artificial-intelligence-ml/policy-gradient-optimizers.md) — Updates policy parameters directly using gradient-based methods for decision-making tasks.
- [Temporal Difference Learning](https://awesome-repositories.com/f/artificial-intelligence-ml/temporal-difference-learning.md) — Updates value estimates incrementally by comparing current predictions with subsequent observations.
- [Dynamic Programming Solvers](https://awesome-repositories.com/f/artificial-intelligence-ml/dynamic-programming-solvers.md) — Computes optimal policies by systematically sweeping through state spaces to refine value estimates.
- [Experience Replay Buffers](https://awesome-repositories.com/f/artificial-intelligence-ml/experience-replay-buffers.md) — Stores past agent transitions in a memory structure to break temporal correlations during training.
- [Policy Gradient Methods](https://awesome-repositories.com/f/artificial-intelligence-ml/machine-learning/infrastructure/machine-learning-training/utilities/gradient-optimization-techniques/policy-gradient-methods.md) — Updates policy parameters directly using gradient-based architectures to handle decision-making tasks. ([source](http://www.wildml.com/2016/10/learning-reinforcement-learning/))
- [Monte Carlo Sampling Methods](https://awesome-repositories.com/f/artificial-intelligence-ml/monte-carlo-sampling-methods.md) — Estimates state values by averaging total accumulated rewards from multiple complete episodes.
- [Temporal Difference Optimizers](https://awesome-repositories.com/f/artificial-intelligence-ml/optimal-action-estimation/temporal-difference-optimizers.md) — Improves decision-making by updating action-value estimates incrementally through temporal difference methods. ([source](http://www.wildml.com/2016/10/learning-reinforcement-learning/))
- [Reinforcement Learning Value Estimators](https://awesome-repositories.com/f/artificial-intelligence-ml/reinforcement-learning-value-estimators.md) — Estimates action values in complex environments using deep learning architectures and prioritized sampling. ([source](http://www.wildml.com/2016/10/learning-reinforcement-learning/))