3 dépôts
Converting diverse dialogue and QA datasets into a consistent multi-turn conversation structure.
Distinct from Data Format Converters: Distinct from tensor or trace normalization; focuses on natural language dialogue structure.
Explore 3 awesome GitHub repositories matching data & databases · Conversation Format Normalization. Refine with filters or upvote what's useful.
This project is a collection of educational resources and technical guides focused on the development and implementation of large language models. It provides a comprehensive curriculum covering transformer architectures, training methods, and deployment strategies. The materials provide detailed instructions for building autonomous agents using reasoning loops and tool integration, as well as guides for fine-tuning models through supervised learning and preference optimization. It also includes tutorials for constructing retrieval augmented generation pipelines and implementing transformer m
Applies templates and control tokens to structure multi-turn dialogues for consistent model interaction.
AdalFlow est un framework d'agents IA autonomes et une bibliothèque d'applications LLM conçue pour construire des flux de travail modulaires. Il sert d'interface agnostique au modèle et d'orchestrateur de pipeline RAG, permettant aux utilisateurs de développer des agents ReAct qui utilisent un raisonnement itératif et l'exécution d'outils externes pour résoudre des tâches complexes. Le projet se distingue par un système d'optimisation de prompt qui utilise la descente de gradient textuelle pour affiner automatiquement les templates de prompt et les exemples few-shot. Il traite le feedback du modèle comme un signal différentiable, permettant une forme de rétropropagation LLM pour améliorer itérativement la qualité de sortie basée sur des métriques d'évaluation. Le framework couvre une large surface de capacités, incluant la génération augmentée par récupération (RAG) avec recherche vectorielle sémantique et reranking, le traçage d'exécution basé sur les spans pour l'observabilité, et l'analyse structurée pilotée par schéma. Il fournit une couche de communication unifiée pour de nombreux fournisseurs de modèles propriétaires et open source, et prend en charge la conversion de fonctions Python en interfaces d'outils standardisées. Le système est implémenté en Python et s'intègre avec MLflow pour le suivi et l'analyse des flux de travail.
Converts raw chat completion streams into a standardized format for consistent event handling.
MNBVC is a dataset pipeline and toolkit designed for the collection, cleaning, and normalization of massive text and code corpora used to train large language models. It provides specialized tools for harvesting source code, commit histories, and repository metadata from version control platforms, alongside a multilingual text corpus collector for gathering parallel text and academic papers. The project distinguishes itself through comprehensive capabilities for processing diverse document types, including a PDF-to-text converter that transforms complex layouts and formulas into structured JS
Converts specialized test data into a consistent multi-turn conversation format.