5 repository-uri
Techniques for processing multiple text sequences in parallel to optimize hardware utilization during model training.
Distinct from Stateful Sequence Batching: Closest candidates focus on specific matrix utilities or stateful batching, not general parallel sequence training for LLMs.
Explore 5 awesome GitHub repositories matching artificial intelligence & ml · Batch Sequence Training. Refine with filters or upvote what's useful.
GPT-Neo is an open-source distributed training framework designed for scaling GPT-2 and GPT-3-style language models across multiple devices using mesh-tensorflow for model parallelism. It provides the infrastructure to train transformer-based language models with billions of parameters across distributed computing environments, making large-scale language model research accessible outside of proprietary systems. The framework supports training both autoregressive GPT-style models and masked language models like BERT or RoBERTa, with configurable masking strategies and token handling. It inclu
Groups variable-length sequences into padded batches to maximize hardware utilization during training.
GPT2-Chinese is a Chinese language model implementation based on the GPT-2 architecture. It provides a causal language model trainer and a natural language generation tool designed for training and generating human-like Chinese text sequences. The system integrates a BERT tokenizer to process Chinese corpora into manageable units for machine learning. It enables the development of predictive text models that can generate specific patterns, such as news or poetry, through prompt-based text completion. The project covers a full workflow including text tokenization, model training using a trans
Implements parallel processing of text segments to optimize GPU utilization during training.
Analyzes how batch sizes and sequence lengths affect hardware FLOPs utilization.
xtuner este un motor de antrenare cuprinzător pentru modele de limbaj mari (LLM), oferind un toolkit pentru pre-antrenare, fine-tuning supervizat și optimizarea modelelor multimodale vision-language. Servește ca un accelerator de antrenare distribuită și un framework specializat pentru scalarea modelelor Mixture-of-Experts și alinierea comportamentului modelului prin învățare prin consolidare din feedback uman (RLHF). Proiectul se distinge prin optimizări avansate de memorie și calcul, cum ar fi paralelismul de secvență pentru ferestre de context ultra-lungi și paralelismul de pipeline intercalat pentru a reduce timpul de inactivitate al GPU-ului. Oferă o suită dedicată pentru optimizarea preferințelor, implementând tehnici precum Group Relative Policy Optimization și Direct Preference Optimization pentru a rafina politicile modelului și sistemele de recompensă. Zonele largi de capabilități acoperă antrenarea distribuită a modelelor pe mai multe noduri, pregătirea seturilor de date multimodale și gestionarea fine-tuning-ului bazat pe adaptoare. Motorul include, de asemenea, instrumente pentru evaluarea modelului, fuziunea ponderilor (weight merging) și exportul parametrilor antrenați către motoarele de inferență. Antrenarea este gestionată prin fișiere de configurare standardizate și launchere distribuite pentru a asigura rezultate consistente pe clusterele de calcul.
Processes extended text datasets by distributing long sequences across hardware to overcome VRAM limits.
Acest proiect este un tutorial de analiză a sentimentelor în PyTorch și o implementare de deep learning pentru analiza textului. Oferă un pipeline de clasificare a secvențelor pentru procesarea limbajului natural, conceput pentru a curăța datele text și a antrena rețele neuronale pentru a categorisi secvențe de cuvinte. Implementarea se concentrează pe adaptarea modelelor de limbaj pre-antrenate pentru sarcini specifice de clasificare a textului folosind seturi de date personalizate. Include un proces pentru fine-tuning-ul modelelor de limbaj la scară largă și implementarea rețelelor recurente și a transformerelor pentru detectarea tonului emoțional. Proiectul acoperă aspectele generale ale clasificării secvențelor de text și procesării textului în PyTorch. Aceasta include fluxuri de lucru pentru pregătirea seturilor de date text brute folosind biblioteca TorchText și construirea de modele de deep learning pentru a atribui categorii textului.
Groups multiple text sequences into tensors to optimize hardware utilization during model training.