Vance0124Token-level-Direct-Preference-Optimization

0

155 stars15 forksPythonApache-2.00 views

Token Level Direct Preference Optimization

This repo contains a reference implementation of the TDPO algorithm for training language models from preference data, as described in the paper Token-level Direct Preference Optimization (ICML 2024). Our implementation is based on DPO, and follows the same usage guidelines.

Features

Reinforcement Learning - Hierarchical reward optimization at the token level.

Token Level Direct Preference Optimization

Features

Star history